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为 什么 写 这 本 书 


计算 技术 已 经 改变 了 我 们 的 工作 、 学 习 和 生活 。 分 布 式 的 云 计算 
技术 是 当下 IT 领域 最 热门 的 话题 之 一 ， 它 通过 整合 和 资源， 为 降低 成 本 
和 能 源 消 耗 提 供 了 一 种 简化 、 集 中 的 计算 平台 。 这 种 低 成 本 、 高 扩 
展 、 高 性 能 的 特点 促使 其 迅速 发 展 ， 裔 地 开发 ， 悄 然 改 变 着 整个 行业 
的 面 抠 。 社 会 各 界 对 云 计 算 的 广泛 研究 和 应 用 无 疑 证 明了 这 一 点 : 在 
学 术 界 ， 政 府 和 很 多 高 校 十 分 重视 对 云 计算 技术 的 研究 和 投入 ; 在 产 
业界 ， 各 大 IT 公司 也 在 研究 和 开发 相关 的 云 计 算 产 品 上 投入 了 大 量 的 
质 源 。 这 些 研 究 和 应 用 推动 与 云 计 算 相 关 的 新兴 技术 和 产品 不 断 调 
现 ， 传 统 的 信息 服务 产品 同 云 计算 模式 转型 。 


Hadoop 作 为 Apache 基 金 会 的 开源 项 目 ， 征 云 计 算 人 研究 和 应 用 最 具 
代表 性 的 产品 。Hadoop 分 布 式 框架 为 开发 者 提供 了 一 个 分 布 式 系统 的 
基础 架构 ， 用 户 可 以 在 不 了 解 分 布 式 系统 底层 细 方 的 情况 下 开发 分 布 
式 的 应 用 ， 充 分 利用 由 Hadoop 统 一 起 来 的 集群 存储 资产、 网 络 资源 和 
计算 资源 ， 实 现 基于 海量 数据 的 高 速 运算 和 存储 。 


在 编写 本 书 第 一 版 时 ， 鉴 于 Hadoop 技 术 本 身 和 应 用 环境 较为 复 
杂 ， 入 门 和 实践 难度 较 大 ， 而 天 于 Hadoop 的 参考 资料 又 非常 少 ， 笔 者 


根据 自己 的 实际 研究 和 使 用 经 历 ， 理 论 与 实践 并 重 ， 从 基础 出 发 ， 为 
读者 全 面 呈 现 了 Hadoop 的 相关 知识 ， 旨 在 为 Hadoop 学 习 者 提供 一 本 工 
具 书 。 但 是 时 至 今日 ，Hadoop 的 版 本 已 从 本 书 第 一 版 介绍 的 0.20 升 级 
至 正式 版 1.0， 读 者 的 需求 也 从 入 门 发 展 到 更 加 深入 地 了 解 Hadoop 的 实 
现 细 方 ， 了 解 Hadoop 的 更 新 和 发 展 的 趋势 ， 了 解 Hadoop 在 企业 中 的 应 
用 。 虽 然 本 书 第 一 版 受到 广大 Hadoop 学 习 者 的 欢迎 ， 但 是 为 了 保持 对 
最 新 版 Hadoop 的 支持 ， 进 一 步 满足 读者 的 需求 ， 继 续 推动 Hadoop 技 术 
在 国内 的 普及 和 发 展 ， 笔 者 不 惜 时 间 和 精力 ， 搜 集资 料 ， 亲 自 实践 ， 

编写 了 本 书 第 二 版 。 


第 2 版 与 第 1 版 的 区 别 
基于 Hadoop 1.0 版 本 和 相关 项 目的 最 新 版 ， 本 书 在 第 1 版 的 基础 上 
进行 了 更 新 和 调整 : 


每 草 都 增加 了 新 内 容 (如 第 1 章 增加 了 与 Hadoop 安 全 相关 的 知 
识 ， 第 2 增加 了 在 Max OS X 系 统 上 安装 Hadoop 的 介绍 ， 第 9 章 增 加 了 


WebHDFS 等 ) : 


部 分 董 廊 深入 剖析 了 Hadoop 源 码 ; 


增加 了 对 Hadoop 接 口 及 实践 方面 的 介绍 (附录 C 和 附录 D) ; 
增加 了 对 下 一 代 MapReduce 的 介绍 (第 8 章 ) ; 
将 企业 应 用 介绍 移 到 本 书 最 后 并 更 新 了 内 容 (第 19 章 ) ; 


增加 了 对 Hadoop 安 装 和 代码 执行 的 集中 介绍 (附录 B) 。 


ARAINA 


在 编写 本 书 时 ， 笔 者 力图 使 不 同 痛 景 、 职业 和 层次 的 读者 都 能 从 
这 本 书 中 获 益 。 


如 果 你 是 专业 技术 人 员 ， 本 书 将 带领 你 深入 云 计算 的 世界 ， 全 面 
掌握 Hadoop 及 其 相关 技术 细 闻 ， 帮 助 你 使 用 Hadoop 技 术 解 决 当前 面临 


的 问题 。 


如 果 你 是 系统 架构 人 员 ， 本 书 将 成 为 你 搭建 Hadoop 集 群 、 管 理 集 
群 ， 并 迅速 定位 和 解决 问题 的 工具 书 。 


如 采 你 生 高 等 院 校 计算 机 及 相关 专业 的 学 生 ， 本 书 将 为 你 在 课 符 
之 外 了 解 最 新 的 IT 技术 打开 了 一 扇 窗户 ， 帮 助 你 拓宽 视野 ， 完 善 知 识 
结构 ， 为 迎接 未 来 的 挑战 做 好 知识 储备 。 


在 学 习 本 书 之 前 ， 大 家 应 该 具有 如 下 的 基础 : 


要 有 一 定 的 分 布 式 系统 的 基础 知识 ， 对 文件 系统 的 基本 操作 有 一 
定 的 了 解 。 


要 有 一 定 的 Linux 操 作 系统 的 基础 知识 。 


BBO A Se EE AAT ESAT), Ce BES PA EA 


Java t a ° 


HAGR + RUE OPE < ASCULES, URRA NER SANTEE 
有 一 些 了 解 。 
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从 整体 内 容 上 讲 ， 本 书包 括 19 章 和 4 个 附录 。 前 10 章 、 第 18 章 、 第 
19 半 和 4 个 附录 主要 介绍 了 Hadoop 背 景 知识 、Hadoop 和 集群 安装 和 代码 
执行 、MapReduce 机 制 及 编程 知识 、HDFS 实 现 细节 及 管理 知识 、 
Hadoop 应 用 。 第 11 章 至 第 17 章 结合 最 新 版 本 详细 介绍 了 与 Hadoop 相 天 
的 其 他 项 目 ， 分 别 为 Hive、HBase、Mahout、Pig、ZooKeeper、Avro、 
Chukwa， 以 备 读者 扩展 知识 面 之 用 。 


在 阅读 本 书 时 ， 笔 者 建议 大 家 先 系统 地 学 习 Hadoop 部 分 的 理论 知 
R 〈 第 1 章 、 第 3 章 、 第 6 章 至 第 10 章 ) ， 这 样 可 对 Hadoop 的 核心 内 容 
和 实现 机 制 有 一 个 很 好 的 理解 。 在 此 基础 上 ， 读 者 可 进一步 学 习 
Hadoop 部 分 的 实践 知识 〈 第 2 章 、 第 4 章 、 第 5 草 、 第 18 章 、 第 19 草 和 4 
个 附录 ) ， 党 试 搭建 自己 的 Hadoop 集 群 ， 编 写 并 运行 自己 的 
MapReduce 代 码 。 对 于 本 书 中 关于 Hadoop 相 关 项 目的 介绍 ， 大 家 可 以 
有 过 择 地 学 习 。 在 内 容 的 编排 上 ， 各 章 的 知识 点 古 相 对 独立 的 ， 是 并 
行 的 关系 ， 因 此 大 家 可 以 有 选择 地 进行 学 习 。 当 然 ， 如 有 宁 时 间 人 允许 ， 
还 是 建议 大 家 系统 地 学 习 全 书 的 内 容 ， 这 样 能 够 对 Hadoop 系 统 的 机 制 
有 一 个 完整 而 系统 的 理解 ， 为 今后 深入 地 全 究 和 实践 Hadoop 及 云 计算 
技术 打下 坚实 的 基础 。 


另外 ， 笔 者 布 望 大 家 在 学 习 本 书 时 能 一 边 阅 读 ， 一 边 根据 书 中 的 
指导 动手 实践 ， 亲 目 实 践 本 书 中 所 给 出 的 编程 范例 。 例 如 ， 先 搭建 一 
个 目 己 的 云 平台 ， 如 采 条 件 受 限 ， 可 以 选择 伪 分 布 的 方式 。 


TRAKA 


在 本 书 的 附录 中 ， 提 供 了 一 个 基于 Hadoop 的 云 计算 在 线 测试 平台 
(http: //cloud-computing.ruc.edu.cn) ， 大 家 可 以 先 注 册 一 个 免费 账 
户 ， 然 后 即 可 体验 Hadoop 平 台 ， 通 过 该 平台 大 家 可 在 线 编写 
MapReduce 应 用 并 进行 自动 验证 。 如 果 大 家 希望 获得 该 平台 的 验证 
码 ， 或 者 希望 获得 完全 编程 测试 和 理论 测试 的 权限 ， 请 发 邮件 到 
jiahenglu@gmailcom。 访 者 也 可 访问 Hadoop 的 官方 网 站 
(hadoop.apache.org) 阅读 官方 介绍 文档 ， 下 载 学 习 示例 代码 。 


在 本 书 的 撰写 和 相关 技术 的 研究 中 ， 尽 管 笔 者 投入 了 大 量 的 精 
力 、 付 出 了 艰辛 的 努力 ， 但 是 受 知识 水 平 所 限 ， 书 中 存在 不 足 和 疏 漏 
之 处 在 所 难免 ， 晨 请 大 家 批评 指正 。 如 果 有 任何 问题 和 建议 ， 可 发 送 
电子 邮件 至 jiahenglu@gmail.com 或 jiahenglu@ruc.edu.cn。 


致谢 


在 本 书 的 编写 过 程 中 ， 很 多 Hadoop 方 面 的 实践 者 和 研究 者 做 了 大 
量 的 工作 ， 他 们 是 冯 博 亮 、 程 明 、 徐 文 万 、 张 林 林 、 朱 俊民 、 许 翔 、 
陈 东 伟 、 谭 果 、 林 春 彬 等 ， 在 此 表示 感谢 。 
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什么 是 Hadoop 

Hadoop 项 目 及 其 结构 
Hadoop 体 系 结构 

Hadoop 与 分 布 式 开 发 
Hadoop 计 算 模 型 一 MapReduce 
Hadoop 数 据 管理 
Hadoop 集 群 安全 策略 


本 章 小 结 


1.1 什么 是 Hadoop 


1.1.1 Hadoop 概 述 


Hadoop 是 Apache 软 件 基 金 会 旗下 的 一 个 开源 分 布 式 计算 平台 。 以 
Hadoop 分 布 式 文件 系统 (Hadoop Distributed File System, HDFS) 和 
MapReduce (Google MapReduce 的 开源 实现 ) 为 核心 的 Hadoop 为 用 户 
提供 了 系统 底层 细节 透明 的 分 布 式 基础 架构 。HDFS 的 高 容错 性 、 高 
伸缩 性 等 优点 允许 用 户 将 Hadoop 部 署 在 低廉 的 硬件 上 ， 形 成 分 布 式 系 
统 ， MapReduce 分 布 式 编程 模型 多 许 用 户 在 不 了 解 分 布 式 系统 底层 细 
节 的 情况 下 开发 并 行 应 用 程序 。 所 以 用 户 可 以 利用 Hadoop 轻 松 地 组 织 
计算 机 资源 ， 从 而 搭建 自己 的 分 布 式 计算 平台 ， 并 且 可 以 充分 利用 集 
群 的 计算 和 存储 能 力 ， 完 成 海量 数据 的 处 理 。 经 过 业界 和 学 术 界 长 达 
10 年 的 锤炼 ， 目 前 的 Hadoop 1.0.1 已 经 趋 于 完善 ， 在 实际 的 数据 处 理 和 
分 析 任 务 中 担当 着 不 可 替代 的 角色 。 


1.1.2 ”Hadoop 的 历史 


Hadoop 的 源头 是 Apache Nutch， 该 项 目 始 于 2002 年 ， 是 Apache 

Lucene 的 子 项 目 之 一 。2004 年 ，Google 在 “ 探 作 系 统 设计 与 实 
现 ” (Operating System Design and Implementation, OSDI) 会 议 上 公开 
发 表 了 题 为 MapReduce: Simplifed Data Processing on Large Clusters 

( MapReduce: 简化 大 规模 集群 上 的 数据 处 理 》) 的 论文 之 后 ， 受 
到 启发 的 Doug Cutting 等 人 开始 尝试 实现 MapReduce 计 算 框 架 ， 并 将 它 
与 NDFS (Nutch Distributed File System) 结合 ， 用 以 支持 Nutch 引 擎 的 
主要 算法 。 由 于 NDFS 和 MapReduce 在 Nutch 引 警 中 有 着 恨 好 的 应 用 ， 
所 以 它们 于 2006 年 2 月 被 分 离 出 来 ， 成 为 一 套 完 整 而 独立 的 软件 ， 并 命 
名 为 Hadoop。 到 了 2008 年 年 初 ，Hadoop 已 成 为 Apache 的 顶级 项 目 ， 包 
含 众多 子 项 目 。 它 被 应 用 到 包括 Yahoo! 在 内 的 很 多 互联 网 公司 。 现 
在 的 Hadoop1.0.1 版 本 已 经 发 展 成 为 包含 HDFS、MapReduce 子 项 目 ， 
与 Pig、ZooKeeper、Hive、HBase 等 项 目 相 关 的 大 型 应 用 工程 。 


1.1.3 Hadoop 的 功能 与 作用 


我 们 为 什么 需要 Hadoop 呢 ? 众所周知， 现代 社会 的 信息 增长 速度 
很 快 ， 这 些 信息 中 又 积 素 着 大 量 数据 ， 其 中 包括 个 人 数据 和 工业 数 
据 。 预 计 到 2020 年 ， 每 年 产生 的 数字 信息 中 将 会 有 超过 1/3 的 内 容 驻 留 
在 云 平台 中 或 借助 云 平 台 处 理 。 我 们 需要 对 这 些 数据 进行 分 析 处 理 ， 
以 获取 更 多 有 价值 的 信息 。 那 么 我 们 如 何 高 效 地 存储 管理 这 些 数据 、 
如 何 分 析 这 些 数据 呢 ? 这 时 可 以 选用 Hadoop 系 统 。 在 处 理 这 类 问题 
时 ， 它 采用 分 布 式 存储 方式 来 提高 读 写 速 度 和 扩大 存储 容量 ;采用 
MapReduce 整 合 分 布 式 文件 系统 上 的 数据 ， 保 证 高 速 分 析 处 理 数 据 ; 
与 此 同时 还 采用 存储 元 余数 据 来 保证 数据 的 安全 性 。 


Hadoop 中 的 HDFS 具 有 高 容错 性 ， 并 且 是 基于 Java 语 言 开 发 的 ， 这 
使 得 Hadoop 可 以 部 署 在 低廉 的 计算 机 集群 中 ， 同 时 不 限于 某 个 操作 系 
统 。Hadoop 中 HDFS 的 数据 管理 能 力 、MapReduce 处 理 任 务 时 的 高 效 
率 以 及 它 的 开源 特性 ， 使 其 在 同类 分 布 式 系统 中 大 放 异 彩 ， 并 在 众多 
行业 和 科研 领域 中 被 广泛 应 用 。 


1.1.4 Hadoop 的 优势 


Hadoop 是 一 个 能 够 让 用 户 轻 松 架 构 和 使 用 的 分 布 式 计算 平台 。 用 
户 可 以 轻松 地 在 Hadoop 上 开发 运行 处 理 海量 数据 的 应 用 程序 。 它 主要 
LAB LM: 
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高 可 靠 性 。Hadoop 按 位 存储 和 处 理 数 据 的 能 力 值得 人 们 信赖 。 


高 扩展 性 。Hadoop 是 在 可 用 的 计算 机 集 族 间 分 配 数 据 完 成 计算 任 
务 的 ， 这 些 集 篮 可 以 方便 地 扩展 到 数 以 生计 的 节点 中 。 


高 效 性 。Hadoop 能 够 在 市 点 之 间 动 态 地 移动 数据 ， 以 保证 各 个 市 
点 的 动态 平衡 ， 因 此 其 处 理 速度 非常 快 。 


高 容错 性 。Hadoop 能 够 目 动 保 存 数据 的 多 份 副本 ， 并 且 能 够 目 动 
将 失败 的 任务 重新 分 配 。 


1.1.5 Hadoop 应 用 现状 和 发 展 趋势 


由 于 Hadoop 优 势 突 出 ， 基 于 Hadoop 的 应 用 已 经 遍地 开花 ， 尤 其 是 
在 互联 网 领域 。Yahoo! 通过 集群 运行 Hadoop， 用 以 文 持 广告 系统 和 
Web 搜 索 的 研究 ;Facebook 借 助 集群 运行 Hadoop 来 文 持 其 数据 分 析 和 
机 器 学 习 ; 搜索 引 敬 公司 百度 则 使 用 Hadoop 进 行 搜索 日 志 分 析 和 网 页 
数据 挖 据 工作 ;， 淘 宝 的 Hadoop 系 统 用 于 存储 并 处 理 电子 商务 交易 的 相 
关 数 据 ， 中 国 移动 研究 院 基 于 Hadoop 的 “大 云 ”(BigCloud) 系统 对 数 
据 进 行 分 析 并 对 外 提供 服务 。 


2008 年 2 月 ， 作 为 Hadoop 最 大 页 献 者 的 Yahoo! 构建 了 当时 最 大 规 
模 的 Hadoop 应 用 。 他 们 在 2000 个 和 点 上 面 执行 了 超过 1 万 个 Hadoop 虚 
拟 机 器 来 处 理 超过 5PB 的 网 页 内 容 ， 分 析 大 约 1 兆 个 网 络 连接 之 间 的 网 
页 索引 资料 。 这 些 网 页 索引 资料 压缩 后 超过 300TB。Yahoo! 正 是 基于 
这 些 为 用 户 提供 了 高 质量 的 搜索 服务 。 


Hadoop 目 前 已 经 取得 了 非常 突出 的 成 绩 。 随 着 互联 网 的 发 展 ， 新 
的 业务 模式 还 将 不 断 涌现 ，Hadoop 的 应 用 也 会 从 互联 网 领域 向 电信 、 
电子 商务 、 银 行 、 生 物 制 药 等 领域 拓展 。 相 信 在 未 来 ，Hadoop 将 会 在 
更 多 的 领域 中 扮演 项 后 英雄 ， 为 我 们 提供 更 加 快捷 优质 的 服务 。 


1.2 ”Hadoop 项 目 及 其 结构 


现在 Hadoop 已 经 发 展 成 为 包含 很 多 项 目的 集合 。 里 然 其 核心 内 容 
是 MapReduce 和 Hadoop 分 布 式 文件 系统 ， 但 与 Hadoop 相 关 的 
Common ` Avro ` Chukwa ` Hive  HBase@ mi H He AA) BURY o E 
们 提供 了 互补 性 服务 或 在 核心 层 上 提供 了 更 高 层 的 服务 。 图 1-1 是 
Hadoop 的 项 目 结构 图 。 


下 面 将 对 Hadoop 的 各 个 关联 项 目 进行 更 详细 的 介绍 。 


| 


| 
Pig (nko | Hive HBase 
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1-1 Hadoop 项 目 结 构图 


1) Common: Common 是 为 Hadoop 其 他 子 项 目 提 供 支持 的 常用 工 
具 ， 它 主要 包括 FileSystem、RPC 和 捉 行 化 库 。 它 们 为 在 廉价 硬件 上 搭 
建 云 计算 环境 提供 基本 的 服务 ， 并 且 会 为 运行 在 该 平台 上 的 软件 开发 


提供 所 需 的 API。 


2) Avro: Avro 是 用 于 数据 序列 化 的 系统 。 它 提供 了 丰富 的 数据 结 
构 类 型 、 快 速 可 压缩 的 二 进 制 数据 格式 、 存 储 持久 性 数据 的 文件 集 、 
远程 调用 RPC 的 功能 和 位 单 的 动态 语言 集成 功能 。 其 中 代码 生成 右 既 


不 需要 读 写 文件 数据 ， 也 不 需要 使 用 或 实现 RPC 协 议 ， 它 只 是 一 个 
选 的 对 静态 类 型 语言 的 实现 。 


Avro 系统 依赖 于 模式 (Schema) ， 数 据 的 读 和 写 是 在 模式 之 下 完 
成 的 。 这 样 可 以 减少 写 入 数据 的 开销 ， 提 高 序列 化 的 速度 并 缩减 其 大 
小 ; 同时 ， 也 可 以 方便 动态 脚本 语言 的 使 用 ， 因 为 数据 连同 其 模式 都 
征 目 描述 的 。 


在 RPC 中 ，Avro 系 统 的 客户 端 和 服务 端 通 过 握手 协议 进行 模式 的 
交换 ， 因 此 当 客 户 端 和 服务 端 拥有 彼此 全 部 的 模式 时 ， 不 同 模式 下 相 
同 命名 字段 、 丢 失 字 上段 和 附加 字段 等 信息 的 一 致 性 问题 束 得 到 了 很 好 
的 解决 。 


3) MapReduce: MapReduce 是 一 种 编程 模型 ， 用 于 大 规模 数据 集 
(大 于 1TB) 的 并 行 运算 。 映 射 (Map) 、 化 简 (Reduce) 的 概念 和 
它们 的 主要 思想 都 是 从 函数 式 编 程 语 言 中 借鉴 而 来 的 。 它 极 大 地 方便 
了 编程 人 员 一 即使 在 不 了 解 分 布 式 并 行 编程 的 情况 下 ， 也 可 以 将 目 己 
的 程序 运行 在 分 布 式 系统 上 。MapReduce 在 执行 时 先 指定 一 个 Map 
(HRT) 函数 ， 把 输入 键 值 对 映射 成 一 组 新 的 键 值 对 ， 经 过 一 定 处 理 
后 交 给 Reduce, Reduce 对 相同 key 下 的 所 有 value 进 行 处 理 后 再 输出 键 值 
对 作为 最 终 的 结果 。 


1-2 是 MapReduce 的 任务 处 理 流 程 图 ， 它 展示 了 MapReduce 程 序 
将 输入 划分 到 不 同 的 Map 上 、 再 将 Map 的 结果 合并 到 Reduce、 然 后 进 
行 处 理 的 输出 过 程 。 详 细 介绍 请 参考 本 章 1.3T。 


| 输出 数据 


1-2 ”MapReduce 的 任务 处 理 流程 图 


4) HDFS: HDFS 是 一 个 分 布 式 文件 系统 。 因 为 HDFS 具 有 高 容错 
性 (fault-tolerent) 的 特点 ， 所 以 它 可 以 设计 部 署 在 低廉 〈low-cost) 
的 硬件 上 。 它 可 以 通过 提供 高 吞吐 率 (high throughput) 来 访问 应 用 程 
序 的 数据 ， 适 合 那些 有 着 超大 数据 集 的 应 用 程序 。HDFS 放 宽 了 对 可 
移植 操作 系统 接口 (POSIX, Portable Operating System Interface) 的 要 
求 ， 这 样 可 以 实现 以 流 的 形式 访问 文件 系统 中 的 数据 。HDFS 原 本 是 
开源 的 Apache 项 目 Nutch 的 基础 结构 ， 最 后 它 却 成 为 了 Hadoop 基 础 架 
构 之 一 。 


以 下 几 个 方面 是 HDFS 的 设计 目标 : 


仿 测 和 快速 恢复 硬件 故障 。 硬 件 故 障 是 计算 机 常见 的 问题 。 整 个 
HDFS 系 统 由 数 百 甚至 数 千 个 存储 着 数据 文件 的 服务 右 组 成 。 而 如 此 


多 的 服务 器 则 意味 着 高 故障 率 ， 因 此 ， 故 障 的 检测 和 快速 自动 恢复 是 
HDFS 的 一 个 核心 目标 。 


流 式 的 数据 访问 。HDFS 使 应 用 程序 流 式 地 访问 它们 的 数据 集 。 
HDEFS 被 设计 成 适合 进行 批量 处 理 ， 而 不 是 用 户 交 互 式 处 理 。 所 以 它 
重视 数据 吞吐 量 ， 而 不 是 数据 访问 的 反应 速度 。 


简化 一 致 性 模型 。 大 部 分 的 HDFS 程 序 对 文件 的 操作 需要 一 次 写 
入 ， 多 次 读 取 。 一 个 文件 一 旦 经 过 创建 、 写 入 、 关 闭环 不 需要 修改 
了 。 这 个 假设 简化 了 数据 一 致 性 问题 和 高 吞吐 量 的 数据 访问 问题 。 


通信 协议 。 所 有 的 通信 协议 都 是 在 TCP/P 协 议 之 上 的 。 一 个 客户 
端 和 明确 配置 了 端口 的 名 字 节 点 (NameNode) 建立 连接 之 后 ， 它 和 
BT RAW Ee BP kia (Client Protocal) ° BRT AK 
(DataNode) 和 和 名字 市 点 之 间 则 用 数据 市 点 协议 (DataNode 


Protocal) œ 
关于 HDFS 的 具体 介绍 请 参考 本 章 1.3 节 。 


5) Chukwa: Chukwa 是 开源 的 数据 收集 系统 ， 用 于 监控 和 分 析 大 
型 分 布 式 系统 的 数据 。Chukwa 是 在 Hadoop 的 HDFS 和 MapReduce 框 架 
之 上 搭建 的 ， 它 继承 了 Hadoop 的 可 扩展 性 和 健壮 性 。Chukwa 通 过 
HDFS 来 存储 数据 ， 并 依赖 MapReduce 任 务 处 理 数 据 。Chukwa 中 也 附 


市 了 灵活 且 强 大 的 工具 ， 用 于 显示 、 监 视 和 分 析 数 据 结 采 ， 以 便 更 好 
地 利用 所 收集 的 数据 。 


6) Hive: Hive 最 早 是 由 Facebook 设 计 的 ， 是 一 个 建立 在 Hadoop 基 
础 之 上 的 数据 仓库 ， 它 提供 了 一 些 用 于 对 Hadoop 文 件 中 的 数据 集 进行 
数据 整理 、 特 殊 查 询 和 分 析 存 储 的 工具 。Hive 提 供 的 是 一 种 结构 化 数 
据 的 机 制 ， 它 支持 类 似 于 传统 RDBMS 中 的 SQL 语言 的 查询 语言 ， 来 帮 
助 那些 熟悉 SQL 的 用 户 查 询 Hadoop 中 的 数据 ， 该 查询 语言 称 为 Hive 
QL 。 与 此 同时 ， 传 统 的 MapReduce 编 程 人 员 也 可 以 在 Mapper 或 
Reducer 中 通过 Hive QL 查 询 数据 。Hive 编 译 器 会 把 Hive QL 编译 成 一 组 
MapReduce 任 务 ， 从 而 方便 MapReduce 编 程 人 员 进 行 Hadoop 系 统 
发 。 


7) HBase: HBase 是 一 个 分 布 式 的 、 面 向 列 的 开源 数据 库 ， 该 技 
术 来 源 于 Google 论 文 《Bigtable: 一 个 结构 化 数据 的 分 布 式 存储 系 
统 》。 如 同 Bigtable 利 用 了 Google 文 件 系 统 (Google File System) 提供 
的 分 布 式 数据 存储 方式 一 样 ，HBase 在 Hadoop 之 上 提供 了 类 似 于 
Bigtable 的 能 力 。HBase 不 同 于 一 般 的 关系 数据 库 ， 原 因 有 两 个 ， 其 
一 ，HBase 是 一 个 适合 于 非 结构 化 数据 存储 的 数据 库 ， 其 二 ，HBase 是 
基于 列 而 不 是 基于 行 的 模式 。HBase 和 Bigtable 使 用 相同 的 数据 模型 。 
用 户 将 数据 存储 在 一 个 表 里 ， 一 个 数据 行 拥有 一 个 可 选择 的 键 和 任意 
数量 的 列 。 由 于 HBase 表 是 玻 松 的 ， 用 户 可 以 为 行 定 义 各 种 不 同 的 


列 。HBase 主 要 用 于 需要 随机 访问 、 实 时 读 写 的 大 数据 (Big Data) 。 
具体 介绍 请 参考 第 12 章 。 


8) Pig: Pig 是 一 个 对 大 型 数据 集 进行 分 析 、 评 估 的 平台 。Pig 最 突 
出 的 优势 是 它 的 结构 能 够 经 受 住 高 度 并 行 化 的 检验 ， 这 个 特性 使 得 它 
能 够 处 理 大 型 的 数据 集 。 目 前 ，Pig 的 底层 由 一 个 编译 器 组 成 ， 它 在 运 
行 的 时 候 会 产生 一 些 MapReduce 程 序 序列 ，Pig 的 语言 层 由 一 种 叫做 Pig 
Latin 的 正文 型 语言 组 成 。 有 关 Pig 的 具体 内 容 请 参考 第 14 章 。 


9) ZooKeeper: ZooKeeper 是 一 个 为 分 布 式 应 用 所 设计 的 开源 协调 
服务 。 它 主要 为 用 户 提供 同步 、 配 置 管理 、 分 组 和 命名 等 服务 ， 减 轻 
分 布 式 应 用 程序 所 承担 的 协调 任务 。ZooKeeper 的 文件 系统 使 用 了 我 们 
所 熟悉 的 目录 树 结构 。ZooKeeper 是 使 用 Java 编 写 的 ， 但 是 它 支 持 Java 
和 C 两 种 编程 语言 。 有 关 ZooKeeper 的 具体 内 容 请 参考 第 15 章 。 


上 面 讨论 的 9 个 项 目 在 本 书 中 都 有 相应 的 章节 进行 详细 的 介绍 。 


1.3 ”Hadoop 体 系 结构 


如 上 文 所 说 ，HDFS 和 MapReduce 是 Hadoop 的 两 大 核心 。 而 整个 
Hadoop 的 体系 结构 主要 是 通过 HDFS 来 实现 分 布 式 存储 的 底层 文 持 
的 ， 并 且 它 会 通过 MapReduce 来 实现 分 布 式 并 行 任务 处 理 的 程序 支 


持 。 


下 面 首先 介绍 HDFS 的 体系 结构 。HDFS 采 用 了 主 从 
(Master/Slave) 结构 模型 ， 一 个 HDFS 集 群 是 由 一 个 NameNode 和 若干 
个 DataNode 组 成 的 。 其 中 NameNode 作 为 主 服 务 器 ， 管 理 文件 系统 的 
命名 空间 和 客户 端 对 文件 的 访问 操作 ; 集群 中 的 DataNode 管 理 存储 的 
数据 。HDFS 人 允许 用 户 以 文件 的 形式 存储 数据 。 从 内 部 来 看 ， 文 件 被 
分 成 若干 个 数据 块 ， 而 且 这 者 干 个 数据 块 存放 在 一 组 DataNode 上 。 
NameNode 执 行文 件 系统 的 命名 空间 操作 ， 比 如 打开 、 关 闭 、 重 命名 
文件 或 目录 等 ， 它 也 负责 数据 块 到 具体 DataNode 的 映 映 。DataNode 人 负 
责 处 理 文件 系统 客户 端的 文件 读 写 请 求 ， 并 在 NameNode 的 统一 调度 
下 进行 数据 块 的 创建 、 删 除 和 复制 工作 。 图 1-3 所 示 为 HDFS 的 体系 结 
构 。 


1-3 HDFS 体 系 结构 图 


NameNode 和 DataNode 都 可 以 在 普通 商用 计算 机 上 运行 。 这 些 计 
算 机 通常 运行 的 是 GNU/Linux 操 作 系 统 。HDFS 采 用 Java 语 言 开 发 ， 
此 任何 支持 Java 的 机 器 都 可 以 部 署 NameNode 和 DataNode。 一 个 典型 的 
部 署 场景 是 集群 中 的 一 台 机 器 运行 一 个 NameNode 实 例 ， 其 他 机 器 分 
别 运行 一 个 DataNode 实 例 。 当 然 ， 并 不 排除 一 台 机 器 运行 多 个 
DataNode 实 例 的 情况 。 集 群 中 单一 NameNode 的 设计 大 大 简化 了 系统 
的 架构 。NameNode 是 所 有 HDFS 元 数据 的 管理 者 ， 用 户 需 要 保存 的 数 
据 不 会 经 过 NameNode， 而 是 直接 流向 存储 数据 的 DataNode。 


接 下 来 介绍 MapReduce 的 体系 结构 。MapReduce 是 一 种 并 行 编程 
模式 ， 利 用 这 种 模式 软件 开发 者 可 以 轻松 地 编写 出 分 布 式 并 行程 序 。 
在 Hadoop 的 体系 结构 中 ，MapReduce 是 一 个 简单 易 用 的 软件 框架 ， 基 
于 它 可 以 将 任务 分 发 到 由 上 干 台 商用 机 絮 组 成 的 集群 上 ， 并 以 一 种 可 


靠 容 错 的 方式 并 行 处 理 大 量 的 数据 集 ， 实 现 Hadoop 的 并 行 任务 处 理 功 
能 。MapReduce 框 架 是 由 一 个 单独 运行 在 主 节点 的 JobTracker 和 运行 在 
每 个 集群 从 节点 的 TaskTracker 共 同 组 成 的 。 主 万 点 负责 调度 构成 一 个 
作业 的 所 有 任务 ， 这 些 任务 分 布 在 不 同 的 从 节点 上 。 主 节点 监控 它们 
的 执行 情况 ， 并 且 重 新 执行 之 前 失败 的 任务 ;从 节点 仅 负责 由 主 季 点 
指派 的 任务 。 当 一 个 Job 被 提交 时 ，JobTracker 接 收 到 提交 作业 和 其 配 
置信 息 之 后 ， 吏 会 将 配置 信息 等 分 发 给 从 市 点 ， 同 时 调度 任务 并 监控 
TaskTracker 的 执行 。 


从 上 面 的 介绍 可 以 看 出 ，HDFS 和 MapReduce 共 同 组 成 了 Hadoop 
分 布 式 系 统 体 系 结构 的 核心 。HDFS 在 集群 上 实现 了 分 布 式 文件 系 
统 ，MapReduce 在 集群 上 实现 了 分 布 式 计算 和 任务 处 理 。HDFS 在 
MapReduce 任 务 处 理 过 程 中 提供 了 对 文件 操作 和 存储 等 的 支持 ， 
MapReduce 在 HDFS 的 基础 上 实现 了 任务 的 分 发 、 跟 踪 、 执 行 等 工作 ， 
并 收集 结果 ， 二 者 相互 作用 ， 完 成 了 Hadoop 分 布 式 集群 的 主要 任务 。 


1.4 Hadoop 与 分 布 式 开发 


我 们 通常 所 说 的 分 布 式 系统 其 实 是 分 布 式 软件 系统 ， 即 文 持 分 布 
式 处 理 的 软件 系统 。 它 是 在 通信 网 络 互联 的 多 处 理 机 体系 结构 上 执行 
任务 的 系统 ， 包 括 分 布 式 操作 系统 、 分 布 式 程序 设计 语言 及 其 编译 
(解释 ) 系统 、 分 布 式 文件 系统 和 分 布 式 数据 库 系 统 等 。Hadoop 是 分 
布 式 软件 系统 中 文件 系统 层 的 软件 ， 它 实现 了 分 布 式 文件 系统 和 部 分 
分 布 式 数据 库 系 统 的 功能 。Hadoop 中 的 分 布 式 文件 系统 HDFS 能 够 实 
现 数据 在 计算 机 集群 组 成 的 云 上 高 效 的 存储 和 管理 ，Hadoop 中 的 并 行 
编程 框架 MapReduce 能 够 让 用 户 编写 的 Hadoop 并 行 应 用 程序 运行 得 以 
简化 。 下 面 简单 介绍 一 下 基于 Hadoop 进 行 分 布 式 并 发 编程 的 相关 知 
识 ， 详 细 的 介绍 请 参看 后 面 有 关 MapReduce 编 程 的 章 六 。 


Hadoop 上 并 行 应 用 程序 的 开发 是 基于 MapReduce 编 程 模型 的 。 
MapReduce 编 程 模型 的 原理 是 : 利用 一 个 输入 的 key/value 对 集合 来 产 
生 一 个 输出 的 key/value 对 集合 。MapReduce 库 的 用 户 用 两 个 函数 来 表 


达 这 个 计算 : Map 和 Reduce。 


用 户 目 定义 的 Map 函 数 接收 一 个 输入 的 key/value 对 ， 然 后 产生 一 
个 中 间 key/value 对 的 集合 。MapReduce 把 所 有 具有 相同 key 值 的 value 集 
合 在 一 起 ， 然 后 传递 给 Reduce 函 数 。 用 户 目 定 义 的 Reduce 函 数 接收 key 
和 相关 的 value 集 合 。Reduce 函 数 合并 这 些 value 值 ， 形 成 一 个 较 小 的 


value 集 合 。 一 般 来 说 ， 每 次 调用 Reduce 函 数 只 产生 0 或 1 个 输出 的 value 
值 。 通 常 我 们 通过 一 个 迭代 妖 把 中 间 value 值 提供 给 Reduce 范 数 ， 这 样 
就 可 以 处 理 无 法 全 部 放 入 内 存 中 的 大 量 的 value 值 集合 了 。 


a a 
过 程 。 简 而 言 之 ， 这 个 过 程 就 是 将 大 数据 集 分 解 为 成 百 上 千 个 小 数据 
集 ， 每 个 (RETA) 数据 集 分 别 由 集群 中 的 一 个 节点 (一 般 就 是 一 
台 普 通 的 计算 机 ) 进行 处 理 并 生成 中 间 结 果 ， 然 后 这 些 中 间 结 果 又 由 
大 量 的 节点 合并 ， 形 成 最 终结 果 。 图 1-4 也 说 明了 MapReduce 框 架 下 并 

行程 序 中 的 两 个 主要 画 数 :Map、Reduce。 在 这 个 结构 中 ， 用 户 需 要 
完成 的 工作 是 根据 任务 编写 Map 和 Reduce 两 个 函数 。 


输入 数据 排序 排序 合并 fee Hi Be He 
att E) —> [map] —> ram 一 
Gist HF) — [map] — er 二 一 
Hae ES map-o 


1-4 MapReduce 数 据 流 图 


MapReduce 计 算 模型 非常 适合 在 大 量 计算 机 组 成 的 大 规模 集群 上 
并 行 运行 。 图 1-4 中 的 每 一 个 Map 任 务 和 每 一 个 Reduce 任 务 均 可 以 同时 
运行 于 一 个 单独 的 计算 节点 上 ， 可 想 而 知 ， 其 运算 效率 是 很 高 的 ， 那 

么 这 样 的 并 行 计算 是 如 何 做 到 的 呢 ? 下面 将 简单 介绍 一 下 其 原理 。 


1. 数 据 分 布 存储 


Hadoop 分 布 式 文件 系统 (HDFS) 由 一 个 名 字 节 点 (NameNode) 
和 多 个 数据 节点 (DataNode) 组 成 ， 每 个 节点 都 是 一 台 普 通 的 计算 
机 。 在 使 用 方式 上 HDFS 与 我 们 熟悉 的 单机 文件 系统 非常 类 似 ， 利 用 
它 可 以 创建 目录 ， 创建、 复制、 删除 文件 ， 并 且 可 以 查看 文件 内 容 
等 。 但 文件 在 HDFS 底 层 被 切割 成 了 Block， 这 些 Block 分 散 地 存储 在 不 
同 的 DataNode 上， 每 个 Block 还 可 以 复制 数 份 数据 存储 在 不 同 的 
DataNode 上 ， 达 到 容错 容 灾 的 目的 。NameNode 则 是 整个 HDFS 的 核 
心 ， 它 通过 维护 一 些 数 据 结构 来 记录 每 一 个 文件 被 切割 成 了 多 少 个 
Block、 这 些 Block 可 以 从 哪些 DataNode 中 获得 ， 以 及 各 个 DataNode 的 
状态 等 重要 信息 。 


2. 分 布 式 并 行 计算 


Hadoop 中 有 一 个 作为 主 控 的 JobTracker， 用 于 调度 和 管理 其 他 的 
TaskTracker 。JobTracker 可 以 运行 于 集群 中 的 任意 一 台 计 算 机 上 ; 
TaskTracker 则 负责 执行 任务 ， 它 必须 运行 于 DataNode 上， 也 束 是 说 
DataNode 既 是 数据 存储 和 点 ， 也 是 计算 节点 。JobTracker 将 Map 任 务 和 
Reduce 任 务 分 发 给 空间 的 TaskTracker， 让 这 些 任务 并 行 运 行 ， 并 人 负责 
监控 任务 的 运行 情况 。 如 果 某 一 个 TaskTracker 出 了 故障 ，JobTracker 会 


将 其 负责 的 任务 转交 给 另 一 个 空闲 的 TaskTracker 重 新 运行 。 


3. 本 地 计算 


数据 存储 在 哪 一 人 台 计 算 机 上 ， 束 由 哪 台 计算 机 进行 这 部 分 数据 的 
计算 ， 这 样 可 以 减少 数据 在 网 络 上 的 传输 ， 降 低 对 网 络 市 宽 的 需求 。 
在 Hadoop 这 类 基于 集群 的 分 布 式 并 行 系统 中 ， 计 算 节 点 可 以 很 方便 地 
扩充 ， 因 此 它 所 能 够 提供 的 计算 能 力 近 乎 无 限 。 但 十 数据 需要 在 不 同 
的 计算 机 之 间 流 动 ， 故 而 网 络 带 览 变 成 了 瓶 贷 。“ 本 地 计算 ”是 一 种 最 
有 效 的 节约 网 络 带宽 的 手段 ， 业 界 将 此 形容 为 "移动 计算 比 移动 数据 更 


经 济 ”。 


4. 任 务 粒 度 


在 把 原始 大 数据 集 切 割 成 小 数据 集 时 ， 通 常 让 小 数据 集 小 于 或 等 
于 HDFS 中 一 个 Block 的 大 小 (默认 是 64MB) ， 这 样 能 够 保证 一 个 小 数 
据 集 是 位 于 一 台 计 算 机 上 的 ， 便 于 本 地 计算 。 假 设 有 M 个 小 数据 集 待 
处 理 ， 就 启动 M 个 Map 任 务 ， 注 意 这 M 个 Map 任 务 分 布 于 N 台 计算 机 
上 ， 它 们 将 并 行 运行 ，Reduce 任 务 的 数量 R 则 可 由 用 户 指定 。 


5. 数 据 分 割 (Partition) 


把 Map 任 务 输出 的 中 间 结 果 按 key 的 范围 划分 成 R 份 〈(R 是 预先 定 
义 的 Reduce 任 务 的 个 数 ) ， 划 分 时 通常 使 用 Hash 函 数 (如 hash (key) 
mod R) ， 这 样 可 以 保证 某 一 段 范围 内 的 key 一 定 是 由 一 个 Reduce 任 务 
来 处 理 的 ， 可 以 们 化 Reduce 的 过 程 。 


6. 数 据 合并 (Combine) 


在 数据 分 割 之 前 ， 还 可 以 先 对 中 间 结 果 进 行 数据 合并 
(Combine) ， 即 将 中 间 结 果 中 有 相同 key 的 <key, value> 对 合并 成 一 
对 。Combine 的 过 程 与 Reduce 的 过 程 类 似 ， 在 很 多 情况 下 可 以 直接 使 
用 Reduce 函 数 ， 但 Combine 是 作为 Map 任 务 的 一 部 分 、 在 执行 完 Map 画 
数 后 紧 接 着 执行 的 。Combine 能 够 减少 中 间 结 末 中 <key value > 对 的 
数目 ， 从 而 降低 网 络 流量 。 


7.Reduce 


Map 任 务 的 中 间 结 果 在 执行 完 Combine 和 Partition 之 后 ， 以 文件 形 
式 存储 于 本 地 磁盘 上 。 中 间 结 果 文 件 的 位 置 会 通知 主 控 JobTracker, 
JobTracker 再 通知 Reduce 任 务 到 哪 一 个 TaskTracker 上 去 取 中 间 结 有 末 。 注 
意 ， 所 有 的 Map 任 务 产生 的 中 间 结 果 均 按 其 key 值 通过 同一 个 Hash 函 数 
划分 成 了 R 份 ，R 个 Reduce 任 务 各 目 负 责 一 段 key 区 间 。 每 个 Reduce 需 
要 向 许多 个 Map 任 务 节 点 取得 落 在 其 负责 的 key 区 间 内 的 中 间 结 果 ， 然 
后 执行 Reduce 函 数 ， 形 成 一 个 最 终 的 结果 文件 。 


8. 任 务 管道 


有 R 个 Reduce 任 务 ， 束 会 有 R 个 最 终结 采 。 很 多 情况 下 这 R 个 最 终 
结 采 并 不 需要 合并 成 一 个 最 终结 果 ， 因 为 这 R 个 最 终结 末 又 可 以 作为 
一 个 计算 任务 的 输入 ， 开 始 另 一 个 并 行 计算 任 务 ， 这 也 束 形 成 了 任 


FA 
务 管道 。 


这 里 简要 介绍 了 在 并 行 编程 方面 Hadoop 中 MapReduce 编 程 模型 的 
原理 、 流 程 、 程 序 结构 和 并 行 计 算 的 实现 ，MapReduce 程 序 的 详细 流 
程 、 编 程 接口 、 程 序 实 例 等 请 参见 后 面 章节 。 


1.5 “Hadoop 计 算 模 型 一 MapReduce 


MapReduce 是 Google 公 司 的 核心 计算 模型 ， 它 将 运行 于 大 规模 集 
群 上 的 复杂 的 并 行 计算 过 程 高 度 地 抽象 为 两 个 函数 : Map 和 Reduce。 
Hadoop 是 Doug Cutting 受 到 Google 发 表 的 天 于 MapReduce 的 论文 局 发 而 
开发 出 来 的 。Hadoop 中 的 MapReduce 是 一 个 使 用 简易 的 软件 框架 ， 基 
于 它 写 出 来 的 应 用 程序 能 够 运行 在 由 上 千 台 商用 机 器 组 成 的 大 型 集群 
上 ， 并 以 一 种 可 靠 容 错 的 方式 并 行 处 理 上 IT 级 别 的 数据 集 ， 实 现 了 
Hadoop 在 集群 上 的 数据 和 任务 的 并 行 计算 与 处 理 。 


一 个 Map/Reduce 作 业 Job) 通常 会 把 输入 的 数据 集 切 分 为 才干 独 
立 的 数据 块 ， 由 Map 任 务 (Task) 以 完全 并 行 的 方式 处 理 它们 。 框 架 
会 先 对 Map 的 输出 进行 排序 ， 然 后 把 结 采 输入 给 Reduce 任 务 。 通 常 作 
业 的 输入 和 输出 都 会 被 存储 在 文件 系统 中 。 整 个 框架 人 负责 任务 的 调度 
和 监控 ， 以 及 重新 执行 已 经 失败 的 任务 。 


通 前 ，Map/Reduce 框 采 和 分 布 式 文件 系统 是 运行 在 一 组 相同 的 节 
上 护 上 的 ， 也 就 是 说 ， 计 算 市 点 和 存储 方 点 在 一 起 。 这 种 配置 允许 框架 
在 那些 已 经 存 好 数据 的 证 点 上 局 效 地 调度 任务 ， 这 样 可 以 使 整个 集群 
的 网 络 冲 宽 得 到 非常 高 效 的 利用 。 


Map/Reduce 框 架 由 一 个 单独 的 Master JobTracker 和 集群 节点 上 的 
Slave TaskTracker 共 同 组 成 。Master 负 责 调 度 构 成 一 个 作业 的 所 有 任 
务 ， 这 些 任 务 分 布 在 不 同 的 slave 上 “。Master 监 控 它 们 的 执行 情况 ， 并 
重新 执行 已 经 失败 的 任务 ， 而 Slave 仅 负责 执行 由 Master 指 派 的 任务 。 


在 Hadoop 上 运行 的 作业 需要 指明 程序 的 输入 /输出 位 置 (路 径 ) ， 
并 通过 实现 合适 的 接口 或 抽象 类 提供 Map 和 Reduce 函 数 。 同 时 还 需要 
指定 作业 的 其 他 参数 ， 构 成 作业 配置 (Job Configuration) 。 在 Hadoop 
的 JobClient 提 交 作 业 (JAR 包 /可 执行 程序 等 ;和 配置 信息 给 JobTracker 
之 后 ，JobTracker 会 负责 分 发 这 些 软件 和 配置 信息 给 slave 及 调度 任务 ， 
并 监控 它们 的 执行 ， 同 时 提供 状态 和 诊断 信息 给 JobClient 。 


1.6 ”Hadoop 数 据 管 理 


前 面 重点 介绍 了 Hadoop 及 其 体系 结构 与 计算 模型 MapReduce， 现 
在 开始 介绍 Hadoop 的 数据 管理 ， 主 要 包括 Hadoop 的 分 布 式 文 件 系统 
HDEFS、 分 布 式 数据 库 HBase 和 数据 仓库 工具 Hive 。 


1.6.1 HDFS 的 数据 管理 


HDFS 是 分 布 式 计 算 的 存储 基石 ，Hadoop 分 布 式 文件 系统 和 其 他 
分 布 式 文件 系统 有 很 多 类 似 的 特性 : 


对 于 整个 集群 有 单一 的 命名 空间 ; 


具有 数据 一 致 性 ， 痢 适合 一 次 写 入 多 次 读 取 的 模型 ， 客 户 病 在 文 
件 没有 被 成 功 创建 之 前 是 无 法 看 到 文件 存在 的 ; 


文件 会 被 分 割 成 多 个 文件 块 ， 每 个 文件 块 被 分 配 存 储 到 数据 节操 
上 ， 而 且 会 根据 配置 由 复制 文件 块 来 保证 数据 的 安全 性 。 


通过 前 面 的 介绍 和 图 1-3 可 以 看 出 ，HDFS 通 过 三 个 重要 的 角色 来 
进行 文件 系统 的 管理 : NameNode、DataNode 和 Client。NameNode 可 
以 看 做 是 分 布 式 文件 系统 中 的 管理 者 ， 主 要 负责 管理 文件 系统 的 命名 
空间 、 集 群 配置 信息 和 存储 块 的 复制 等 。NameNode 会 将 文件 系统 的 


Metadata 存 储 在 内 存 中 ， 这 些 信息 主要 包括 文件 信息 、 每 一 个 文件 对 
应 的 文件 块 的 信息 和 每 一 个 文件 块 在 DataNode 中 的 信息 等 。DataNode 
是 文件 存储 的 基本 单元 ， 它 将 文件 块 (Block) 存储 在 本 地 文件 系统 

中 ,保存 了 所 有 Block 的 Metadata， 同 时 周期 性 地 将 所 有 存在 的 Block 信 
轧 发 送 给 NameNode。Client 就 是 需要 获取 分 布 式 文件 系统 文件 的 应 用 
程序 。 接 下 来 通过 三 个 具体 的 操作 来 说 明 HDFS 对 数据 的 管理 。 


(1) 文件 写 入 
1) Client 癌 NameNode 发 起 文件 写 入 的 请 求 。 


2) NameNode 根 据 文 件 大 小 和 文件 块 配置 情况 ， 返 回 给 Client 所 管 
理 的 DataNode 的 信息 。 


3) Client 将 文件 划分 为 多 个 Block， 根 据 DataNode 的 地 址 信息 ， 按 
顺序 将 其 写 入 到 每 一 个 DataNode 块 中 。 


(2) 文件 读 取 

1) Client 向 NameNode 发 起 文件 读 取 的 请 求 。 
2) NameNode 返 回 文件 存储 的 DataNode 信 息 。 
3) Client 读 取 文 件 信息 。 


(3) 文件 块 (Block) 复制 


1) NameNode 发 现 部 分 文件 的 Block 不 符合 最 小 复制 数 这 一 要 求 或 
部 分 DataNode 失 效 。 


2) 通知 DataNode 相 互 复制 Block ° 


3) DataNode 开 始 直接 相互 复制 。 


作为 分 布 式 文件 系统 ，HDFS 在 数据 管理 方面 还 有 值得 借鉴 的 几 


个 功能 : 


文件 块 (Block) 的 放置 : 一 个 Block 会 有 三 份 备份 ， 一 份 放 在 
NameNode 指 定 的 DataNode 上 ， 男 一 份 放 在 与 指定 DataNode 不 在 同一 
台 机 右上 的 DataNode 上 ， 最 后 一 份 放 在 与 指定 DataNode 同 一 Rack 的 
DataNode 上 。 备 份 的 目的 是 为 了 数据 安全 ， 采 用 这 种 配置 方式 主要 是 
考虑 同一 Rack 失 败 的 情况 ， 以 及 不 同 Rack 之 间 进 行 数据 复制 会 带 来 的 


性 能 问题 。 


心跳 检测 :用 心跳 检测 DataNode 的 健康 状况 ， 如 果 发 现 问 题 束 采 
取 数 据 备份 的 方式 来 保证 数据 的 安全 性 。 


数据 复制 (场景 为 DataNode 失 败 、 需 要 平衡 DataNode 的 存储 利用 
率 和 平衡 DataNode 数 据 交 互 压力 等 情况 ) : 使 用 Hadoop 时 可 以 用 
HDFS 的 balancer 命 令 配置 Threshold 来 平衡 每 一 个 DataNode 的 磁盘 利用 
率 。 假 设 设置 了 Threshold 为 10%， 那 么 执行 balancer 命 令 时 ， 首 先 会 统 


计 所 有 DataNode 的 磁盘 利用 率 的 平均 值 ， 然 后 判断 如 果 某 一 个 
DataNode 的 磁盘 利用 率 超 过 这 个 平均 值 ， 那 么 将 会 把 这 个 DataNode 的 
Block 转 移 到 磁盘 利用 率 低 的 DataNode 上， 这 对 于 新 节点 的 加 入 十 分 有 
用 o 


数据 校 验 ， 采 用 CRC32 做 数据 校 验 。 在 写 入 文件 块 的 时 候 ， 除 了 
会 写 入 数据 外 还 会 写 入 校 验 信息 ， 在 读 取 的 时 候 则 需要 先 校 验 后 读 
入 。 


单个 NameNode: 如 果 单 个 NameNode 和 失败 ， 任 务 处 理 信 息 将 会 记 
孙 在 本 地 文件 系统 和 远 端 的 文件 系统 


数据 管道 性 的 写 入 : 当 客 户 端 要 写 入 文件 到 DataNode 上 上 时， 首先 
会 读 取 一 个 Block， 然 后 将 其 写 到 第 一 个 DataNode 上 ， 接 着 由 第 一 个 
DataNode 将 其 传递 到 备份 的 DataNode 上， 直到 所 有 需要 写 入 这 个 Block 
的 DataNode 都 成 功 写 入 后 ， 客 户 端 才 会 开始 写 下 一 个 Block。 


安全 模式 ， 分布 式 文件 系统 局 动 时 会 进入 安全 模式 (系统 运行 期 
间 也 可 以 通过 命令 进入 安全 模式 ) ， 当 分 布 式 文件 系统 处 于 安全 模式 
时 ， 文 件 系 统 中 的 内 容 不 允许 修改 也 不 允许 删除 ， 直 到 安全 模式 结 
束 。 安 全 模式 主要 是 为 了 在 系统 启动 的 时 候 检查 各 个 DataNode 上 数据 
块 的 有 效 性 ， 同 时 根据 策略 进行 必要 的 复制 或 删除 部 分 数据 块 。 在 实 


际 操作 过 程 中 ， 如 采 在 系统 启动 时 修改 和 删除 文件 会 出 现 安全 模式 不 
允许 修改 的 错误 提示 ， 只 需要 等 待 一 会 儿 即 可 。 


1.6.2 ”HBase 的 数据 管理 


HBase 是 一 个 类 似 Bigtable 的 分 布 式 数据 库 ， 它 的 大 部 分 特性 和 
Bigtable 一 样 ， 是 一 个 稀 芍 的 、 长 期 存储 的 〈 存 在 硬盘 上 ) 、 多 维度 的 
排序 映射 表 ， 这 张 表 的 索引 是 行 关 键 字 、 列 关键 字 和 时 间 戳 。 表 中 的 
每 个 值 是 一 个 纯 字 符 数 组 ， 数 据 都 是 字符 串 ， 没 有 类 型 。 用 户 在 表格 
中 存储 数据 ， 每 一 行 都 有 一 个 可 排序 的 主键 和 任意 多 的 列 。 由 于 是 稀 
芷 存储 的 ， 所 以 同一 张 表 中 的 每 一 行 数据 都 可 以 有 截然 不 同 的 列 。 列 
名 字 的 格式 是 “<family>: <label>”， 它 是 由 字符 串 组 成 的 ， 每 一 张 
表 有 一 个 family 集 合 ， 这 个 集合 是 固定 不 变 的 ， 相 当 于 表 的 结构 ， 只 
能 通过 改变 表 结 构 来 改变 表 的 family 集 合 。 但 是 label 值 相对 于 每 一 行 
来 说 都 是 可 以 改变 的 。 


HBase 把 同一 个 family 中 的 数据 存储 在 同一 个 目 未 下， 而 HBase 的 
写 操作 古 锁 行 的 ， 每 一 行 都 是 一 个 原子 元 素 ， 都 可 以 加 锁 。 所 有 数据 
库 的 更 新 都 有 一 个 时 间 玲 标记 ， 每 次 更 新 都 会 生成 一 个 新 的 版 本 ， 而 
HBase 会 保留 一 定数 量 的 版 本 ， 这 个 值 是 可 以 设 定 的 。 客 户 端 可 以 选 
择 获 取 距 离 某 个 时 间 点 最 近 的 版 本 ， 或 者 一 次 获取 所 有 版 本 。 


以 上 从 微观 上 介绍 了 HBase 的 一 些 数 据 管理 措施 。 那 么 HBase 作 为 
分 布 式 数据 库 在 整体 上 从 集群 出 发 又 是 如 何 管理 数据 的 呢 ? 


HBase 在 分 布 式 集群 上 主要 依靠 由 HRegion、HMaster、HClient 组 
成 的 体系 结构 从 整体 上 管理 数据 。 


HBase 体 系 结构 有 三 大 重要 组 成 部 分 


HBaseMaster: HBase 主 服务 器 ， 与 Bigtable 的 主 服务 器 类 似 。 


HRegionServer: HBase 域 服务 器 ， 与 Bigtable 的 Tablet 服 务 硕 类 
似 。 


HBase Client: HBase 客 户 端 是 由 


org.apache.hadoop.HBase.client.HTable 定 义 的 。 
下 面 将 对 这 三 个 组 件 进行 详细 的 介绍 
(1) HBaseMaster 


一 个 HBase 只 部 署 一 台 主 服务 器 ， 它 通过 领导 选举 算法 (Leader 
Election Algorithm) 确保 只 有 唯一 的 主 服务 器 是 活跃 的 ，ZooKeeper 保 
存 主 服务 器 的 服务 器 地 址 信息 。 如 果 主 服务 器 次 病 ， 可 以 通过 领导 选 
举 算法 从 备用 服务 器 中 选择 新 的 主 服务 器 。 


主 服务 器 承担 着 初始 化 集群 的 任务 。 当 主 服 务 器 第 一 次 启动 时 ， 
会 试图 从 HDFS 获 取 根 或 根 域 目 录 ， 如 有 果 获 取 失 败 则 创建 根 或 根 域 目 
好， 以 及 第 一 个 元 域 目录。 在 下 次 局 动 时 ， 主 服务 絮 开 可 以 获取 集群 


和 集群 中 所 有 域 的 信 ， 


电 了 “。 同 时 主 服务 邵 还 负责 集 


负责 集群 中 域 的 分 配 、 域 
服务 器 运行 状态 的 监视 、 表 格 的 管理 等 工作 


(2) HRegionServer 


HBase 域 服务 右 的 主要 职员 有 服务 于 主 服 务 胡 分配 的 域 、 处 理 客 
尸 端 的 读 写 请 求 、 本 地 缓冲 区 回 写 、 本 地 数据 压缩 和 分 割 域 等 功能 。 

BES BRA ax Rte RA ° S ET UMA Freeh 
时 ， 它 会 从 HDFS 文 件 系 统 中 读 取 该 域 的 日 志和 所 有 存储 文件 ， 同 时 
还 会 管理 操作 HDFS 文 件 的 持久 性 存储 工作 。 客 户 端 通过 与 主 服 务 右 
通信 获取 域 和 域 所 在 域 服务 器 的 列表 信息 后 ， 整 可 以 直接 向 域 服 务 器 
发 送 域 读 写 请 求 ， 来 完成 操作 。 


(3) HBaseClient 


HBase% Fj 


iio eT PP ER ee e HBase Phin 
会 与 HBase 主 机 交换 消 轧 以 碍 找 根 域 的 位 置 


yes 
Hit ° 


， 这 是 两 者 之 间 唯 一 的 交 


定位 根 域 后 ， 客 户 端 连 接 根 域 所 在 的 域 服务 邵 ， 并 扫 摘 根 域 获取 
元 域 信息 。 元 域 信息 中 包含 所 需 用 户 域 的 域 服务 器 地 址 。 客 户 端 再 连 
接 元 域 所 在 的 域 服 务 郁 


E 
SAF TC LR AT is Fa ERR A 
hk EMA BUS, AP im ZEB AL TEA IRS a FFAS h 
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程 。 


综 上 所 述 ， 在 HBase 的 体系 结构 中 ，HBase 主 要 由 主 服 务 奏 、 域 服 
务 器 和 客户 端 三 部 分 组 成 。 主 服务 右 作 为 HBase 的 中 心 ， 管 理 整 个 集 
群 中 的 所 有 域 ， 监 控 每 台 域 服务 右 的 运行 情况 等 ， 域 服务 句 接 收 来 目 
服务 希 的 分 配 域 ， 处 理 客 户 端的 域 读 写 请 求 并 回 写 映 射 文件 等 ; 客户 
端 主要 用 来 得 找 用 户 域 所 在 的 域 服务 右 地 址 信息 。 


1.6.3 ”Hive 的 数据 管理 


Hive 是 建立 在 Hadoop 上 的 数据 仓库 基础 构架 。 它 提供 了 一 系列 的 
工具 ， 用 来 进行 数据 提取 、 和 转化、 加载， 这 是 一 种 可 以 存储 、 查 询 和 
分 析 存 储 在 Hadoop 中 的 大 规模 数据 的 机 制 。Hive 定 义 了 简单 的 类 SQL 
的 查询 语言 ， 称 为 Hive QL， 它 允许 熟悉 SQL 的 用 户 用 SQL 语言 查询 数 
据 。 作 为 一 个 数据 仓库 ，Hive 的 数据 管理 按照 使 用 层次 可 以 从 元 数据 
存储 、 数 据 存储 和 数据 交换 三 方面 来 介绍 。 


(1) 元 数据 存储 


Hive 将 元 数据 存储 在 RDBMS 中 ， 有 三 种 模式 可 以 连接 到 数据 库 : 


Single User Mode: 此 模式 连接 到 一 个 m-memory 的 数据 库 Derby， 
一 般 用 于 Unit Test ° 

Multi User Mode: 通过 网 络 连接 到 一 个 数据 库 中 ， 这 是 最 党 用 的 
模式 。 

Remote Server Mode: 用 于 非 Java 客 户 端 访问 元 数据 库 ， 在 服务 器 


端 司 动 一 个 。 


MetaStoreServer， 客 户 端 利 用 Thrift 协 议 通 过 MetaStoreServer 来 访 
问 元 数据 库 。 


(2) 数据 存储 


目 和 完 ，Hive 没 有 专门 的 数据 存储 格式 ， 也 没有 为 数据 建立 索引 ， 
用 户 可 以 非常 目 由 地 组 织 Hive 中 的 表 ， 只 需要 在 创建 表 的 时 候 告诉 
Hive 数 据 中 的 列 分 隔 符 和 行 分 隔 符 ， 它 就 可 以 解析 数据 了 。 


其 次 ，Hive 中 所 有 的 数据 都 存储 在 HDFS 中 ，Hive 中 包含 4 种 数据 


模型 : Table ` External Table、Partition 和 Bucket。 


Hive 中 的 Table 和 数据 库 中 的 Table 在 概念 上 是 类 似 的 ， 每 一 个 
Table 在 Hive 中 都 有 一 个 相应 的 目录 来 存储 数据 。 例 如 ， 一 个 表 pvs， 
它 在 HDFS 中 的 路 径 为 : /wh/pvs， 其 中 ，wh 是 在 hive-site.xml 中 由 
${fhive.metastore.warehouse.dir} 指 定 的 数据 仓库 的 目 孙 ， 所 有 的 Table 数 
据 (不 包括 External Table) 都 保存 在 这 个 目录 中 。 


(3) 数据 交换 


数据 交换 主要 分 为 以 下 几 部 分 ， 如 图 1-5 所 示 。 


用 户 接口 : 包括 客户 端 、Web 界 面 和 数据 库 接 口 。 


元 数据 存储 通常 存储 在 关系 数据 库 中 ， 如 MySQL、Derby 等 。 


解释 器 、 编 译 器 、 优 化 器 、 执 行 器 。 
Hadoop: 利用 HDFS 进 行 存 储 ， 利 用 MapReduce 进 行 计算 。 


用 户 接口 主要 有 三 个 : 客户 端 、 数 据 库 接口 和 Web 界 面 ， 其 中 最 
常用 的 是 客户 端 。Client 是 Hive 的 客户 端 ， 当 启动 Client 模 式 时 ， 用 户 
会 想 要 连接 Hive Server， 这 时 需要 指出 Hive Server 所 在 的 节点 ， 并 且 


在 该 节点 启动 HiveServer。Web 界 面 是 通过 浏览 器 访问 Hive 的 。 
Hive 将 元 数据 存储 在 数据 库 中 ， 如 MySQL、Derby 中 。Hive 中 的 
元 数据 包括 表 的 名 字 、 表 的 列 、 表 的 分 区 、 表 分 区 的 属性 、 表 的 属性 
(是 否 为 外 部 表 等 ) 、 表 的 数据 所 在 目录 等 。 


FERE mEn ar Hive QL 查询 语句 从 词法 分 析 、 语 法 
分 析 、 编 译 、 优 化 到 查询 计划 的 生成 。 生 成 的 查询 计划 存储 在 HDFS 
中 ， 并 且 随 后 由 MapReduce 调 用 执行 。 


Hive 的 数据 存储 在 HDFS 中 ， 大 部 分 的 查询 由 MapReduce 完 成 〈 包 
售 * 的 查询 不 会 生成 MapRedcue 任 务 ， 比 如 select*from tbl) ° 


以 上 从 Hadoop 的 分 布 式 文件 系统 HDFS、 分 布 式 数据 库 HBase 和 数 
据 仓库 工具 Hive 入 手 介 绍 了 Hadoop 的 数据 管理 ， 它 们 都 通过 自己 的 数 
据 定义 、 体 系 结构 实现 了 数据 从 宏观 到 微观 的 立体 化 管理 ， 完 成 了 
Hadoop 平 台 上 大 规模 的 数据 存储 和 任务 处 理 。 


1-5 Hive 数 据 交 换 图 


1.7 Hadoop f} LER 


众所周知 ，Hadoop 的 优势 在 于 其 能 够 将 廉价 的 普通 PC 组 织 成 能 够 
高 效 稳定 处 理事 务 的 大 型 集群 ， 企 业 正 是 利用 这 一 特点 来 构架 Hadoop 
集群 、 获 取 海 量 数据 的 高 效 处 理 能 力 的 。 但 是 ，Hadoop 集 群 搭建 起 来 
后 如 何 保证 它 安全 稳定 地 运行 呢 ? 旧版 本 的 Hadoop 中 没有 完善 的 安全 
策略 ， 导 致 Hadoop 集 群 面临 很 多 风险 ， 例 如 ， 用 户 可 以 以 任何 身份 访 
问 HDFS 或 MapReduce 集 群 ， 可 以 在 Hadoop 集 群 上 运行 自己 的 代码 来 
冒充 Hadoop 集 群 的 服务 ， 任 何 未 被 授权 的 用 户 都 可 以 访问 DataNode 节 
点 的 数据 块 等 。 经 过 Hadoop 安 全 小 组 的 努力 ， 在 Hadoop 1.0.0 版 本 中 
已 经 加 入 最 新 的 安全 机 制 和 授权 机 制 (Simple 和 Kerberos) , (E 
Hadoop 集 群 更 加 安全 和 稳定 。 下 面 从 用 户 权限 管理 、HDFS 安 全 策略 
和 MapReduce 安 全 策略 三 个 方面 简要 介绍 Hadoop 的 集群 安全 策略 。 有 
关 安全 方面 的 基础 知识 如 Kerberos 认 证 等 读者 可 自行 查阅 相关 资料 。 


(1) 用 户 权 限 管理 

Hadoop 上 的 用 户 权 限 管理 主要 涉及 用 户 分 组 管理 ， 为 更 高 层 的 
HDFS 访 问 、 服 务 访问 、Job 提 交 和 配置 Job 等 操作 提供 认证 和 控制 基 
fill} ° 


Hadoop 上 的 用 户 和 用 户 组 名 均 由 用 户 自 己 指定 ， 如 果 用 户 没 有 指 
定 ， 那 么 Hadoop 会 调用 Linux 的 “whoami” 命 令 获 取 当 前 Linux 系 统 的 用 
户 名 和 用 户 组 名 作为 当前 用 户 的 对 应 名 ， 并 将 其 保存 在 Job 的 username 
和 group.name 两 个 属性 中 。 这 样 用 户 所 提交 Job 的 后 续 认 证 和 授权 以 及 
集群 服务 的 访问 都 将 基于 此 用 户 和 用 户 组 的 权限 及 认证 信息 进行 。 例 
如 ， 在 用 户 提交 Job 到 JobTracker 时 ，JobTracker 会 读 取 保存 在 Job 路 径 
下 的 用 户 信息 并 进行 认证 ， 在 认证 成 功 并 获取 令 牌 之 后 ，JobTracker 会 
根据 用 户 和 用 户 组 的 权限 信息 将 Job 提 交 到 Job 队 列 (具体 细节 参见 本 
小 节 的 HDFS 安 全 策略 和 MapReduce 安 全 策略 ) 。 


Hadoop 集 群 的 管理 员 是 创建 和 配置 Hadoop 集 群 的 用 户 ， 它 可 以 配 
置 集群 ， 使 用 Kerberos 机 制 进行 认证 和 授权 。 同 时 管理 员 可 以 在 集群 
的 服务 (集群 的 服务 主要 包括 NameNode、DataNode、JobTracker 和 
TaskTracker) 授权 列表 中 添加 或 更 改 某 确定 用 户 和 用 户 组 ， 系 统管 理 
员 同 时 负责 Job 队 列 和 队列 的 访问 控制 矩阵 的 创建 。 


(2) HDFS 安 全 策略 


用 户 和 HDFS 服 务 之 间 的 交互 主要 有 两 种 情况 : 用 户 机 和 
NameNode 之 间 的 RPC 交 互 获取 竺 通信 的 DataNode 人 位置， 客户 机 和 
DataNode 交 互 传输 数据 块 。 


RPC 交 互 可 以 通过 Kerberos 或 授权 令 牌 来 认证 。 在 认证 与 
NameNode 的 连接 时 ， 用 户 需 要 使 用 Kerberos 证 书 来 通过 初试 认证 ， 获 
取 授 权 令 牌 。 授 权 令 牌 可 以 在 后 续 用 户 Job 与 NameNode 连 接 的 认证 中 
使 用 ， 而 不 必 再 次 访问 Kerberos Key Server。 授 权 令 牌 实际 上 是 用 户 机 
与 NameNode 之 间 共 享 的 密 钥 。 授 权 令 牌 在 不 安全 的 网 络 上 传输 时 ， 
应 给 予 足 够 的 保护 ， 防 止 被 其 他 用 户 恶意 窃 取 ， 因 为 获取 授权 令 牌 的 
任何 人 都 可 以 假扮 成 认证 用 户 与 NameNode 进 行 不 安全 的 交互 。 需 要 
注意 的 是 ， 每 个 用 户 只 能 通过 Kerberos 认 证 获取 唯一 一 个 新 的 授权 令 
牌 。 用 户 从 NameNode 获 取 授 权 令 牌 之 后 ， 需 要 告诉 NameNode: 谁 是 
指定 的 令 牌 更 新 者 。 指 定 的 更 新 者 在 为 用 户 更 新 令 牌 时 应 通过 认证 确 
定 自 己 就 是 NameNode。 更 新 令 牌 意味 着 延长 令 牌 在 NameNode 上 的 有 
效 期 。 为 了 使 MapReduce Job 使 用 一 个 授权 令 牌 ， 用 户 应 将 JobTracker 
指定 为 令 牌 更 新 者 。 这 样 同一 个 Job 的 所 有 Task 都 会 使 用 同一 个 令 牌 。 
JobTracker 需 要 保证 这 一 令 牌 在 整个 任务 的 执行 过 程 中 都 是 可 用 的 ， 在 
任务 结束 之 后 ， 它 可 以 选择 取消 令 牌 。 


数据 块 的 传输 可 以 通过 块 访问 令 牌 来 认证 ， 每 一 个 块 访问 令 牌 都 
由 NameNode 生 成 ， 它 们 都 是 特定 的 。 块 访问 令 牌 代表 着 数据 访问 容 
量 ， 一 个 块 访问 令 牌 保证 用 户 可 以 访问 指定 的 数据 块 。 块 访问 令 牌 由 
NameNode 签 发 被 用 在 DataNode 上， 其 传输 过 程 就 是 将 NameNode 上 的 
认证 信息 传输 到 DataNode 上。 块 访问 令 牌 是 基于 对 称 加 密 模 式 生 成 
的 ，NameNode 和 DataNode 共 享 了 密 钥 。 对 于 每 个 令 牌 ，NameNode 基 


于 共享 密 钥 计算 一 个 消息 认证 码 (Message Authentication Code, 

MAC) 。 拉 下来， 这 个 消息 认证 码 就 会 作为 令 牧 验证 器 成 为 令 牌 的 主 
要 组 成 部 分 。 当 一 个 DataNode 接 收 到 一 个 令 牌 时 ， 它 会 使 用 自己 的 共 
享 密 钥 重 新 计算 一 个 消息 认证 码 ， 如 果 这 个 认证 码 同 令 牌 中 的 认证 码 
匹配 ， 那 么 认证 成 功 。 


(3) MapReduce 安 全 策略 
MapReduce 安 全 策略 主要 涉及 Job 提 交 、Task 和 Shuffle 三 个 方面 。 


对 于 Job 提 交 ， 用 户 需要 将 Job 配 置 、 输 入 文件 和 输入 文件 的 元 数 
据 等 写 入 用 户 home 文 件 夹 下 ， 这 个 文件 夹 只 能 由 该 用 户 读 、 写 和 执 
行 。 接 下 来 用 户 将 home 文 件 夹 位 置 和 认证 信息 发 送 给 JobTracker 。 在 
执行 过 程 中 ，Job 可 能 需要 访问 多 个 HDFS 节 点 或 其 他 服务 ， 因 此 ，Job 
的 安全 凭证 将 以 < String key, binary value> 形 式 保 存在 一 个 Map 数 据 结 
构 中 ， 在 物理 存储 介质 上 将 保存 在 HDFS 中 JobTracker 的 系统 目录 下 ， 
并 分 发 给 每 个 TaskTracker。Job 的 授权 令 牌 将 NameNode 的 URL 作 为 其 
关键 信息 。 为 了 防止 授权 令 牌 过 期 ，JobTracker 会 定期 更 新 授权 令 脾 。 
Job 结 束 之 后 所 有 的 令 牌 都 会 失效 。 为 了 获取 保存 在 HDFS 上 的 配置 信 
息 ，JobTracker 需 要 使 用 用 户 的 授权 令 牌 访问 HDFS， 读 取 必 和 需 的 配置 


任务 (Task) 的 用 户 信息 沿用 生成 Task 的 Job 的 用 户 信息 ， 因 为 通 
过 这 个 方式 能 保证 一 个 用 户 的 Job 不 会 向 TaskTracker 或 其 他 用 户 Job 的 
Task 发 送 系 统 信 号 。 这 种 方式 还 保证 了 本 地 文件 有 权限 高 效 地 保存 私 
有 信息 。 在 用 户 提 交 Job 后 ，TaskTracker 会 接收 到 JobTracker 分 发 的 Job 
安全 凭证， 并 将 其 保存 在 本 地 仅 对 该 用 户 可 见 的 Job 文 件 夹 下 。 在 与 


TaskTracker 通 信 的 时 候 ，Task 会 用 到 这 个 赁 证。 


当 一 个 Map 任 务 完成 时 ， 它 的 输出 被 发 送 给 管理 此 任务 的 
TaskTracker 。 每 一 个 Reduce 将 会 与 TaskTracker 通 信 以 获 取 自 己 的 那 部 
分 输出 ， 此 时 ， 就 需要 MapReduce 框 架 保 证 其 他 用 户 不 会 获取 这 些 
Map 的 输出 。Reduce 任 务 会 根据 Job 和 凭证 计算 请 求 的 URL 和 当前 时 间 戳 
的 消 妃 认证 码 。 这 个 消息 认证 码 会 和 请 求 一 起 发 到 TaskTracker， 而 
TaskTracker 只 会 在 请 妃 认 证 码 正确 并 且 在 封 疼 时 间 玲 的 N 分 钟 之 内 提 
供 服 务 。 在 TaskTracker 返 回 数 据 时 ， 为 了 防止 数据 被 木马 替换 ， 应 答 
消 妃 的 头 部 将 会 封装 根据 请 求 中 的 消息 认证 码 计算 而 来 的 靳 谢 妃 认 证 
码 和 Job 赁 证 ， 从 而 保证 Reduce 能 够 验证 应 答 消 息 是 由 正确 的 
TaskTracker 发 送 而 来 。 
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本 章 首先 介绍 了 Hadoop 分 布 式 计算 平台 : 它 是 由 Apache 软 件 基 金 
会 开发 的 一 个 开源 分 布 式 计算 平台 。 以 Hadoop 分 布 式 文件 系统 
(HDFS) 和 MapReduce (Google MapReduce 的 开源 实现 ) 为 核心 的 
Hadoop 为 用 户 提 供 了 系统 底层 细节 透明 的 分 布 式 基础 架构 。 由 于 
Hadoop 拥 有 可 计量 、 成 本 低 、 高 效 、 可 信 等 突出 特点 ， 基 于 Hadoop 的 
应 用 已 经 遍地 开花 ， 尤 其 是 在 互联 网 领域 。 


本 章 接 下 来 介绍 了 Hadoop 项 目 及 其 结构 ， 现 在 Hadoop 已 经 发 展 成 
为 一 个 包含 多 个 子 项 目的 集合 ， 被 用 于 分 布 式 计算 ， 虽 然 Hadoop 的 核 
心 是 Hadoop 分 布 式 文件 系统 和 MapReduce， 但 Hadoop 下 的 Common、 
Avro、Chukwa、Hive、HBase 等 子 项 目 提 供 了 互补 性 服务 或 在 核心 层 
之 上 提供 了 更 高 层 的 服务 。 紧 接着 ， 简 要 介绍 了 以 HDFS 和 MapReduce 
为 核心 的 Hadoop 体 系 结构 。 


本 革 之 后 又 从 分 布 式 系统 的 角度 介绍 了 Hadoop 是 如 何 做 到 并 行 计 
算 和 数据 管理 的 。 分 布 式 计算 平台 Hadoop 实 现 了 分 布 式 文件 系统 和 分 
布 式 数据 库 。Hadoop 中 的 分 布 式 文件 系统 HDFS 能 够 实现 数据 在 电脑 
集群 组 成 的 云 上 高 效 的 存储 和 管理 功能 ，Hadoop 中 的 并 行 编程 框架 
MapReduce 基 于 HDFS 来 保证 用 户 可 以 编写 应 用 于 Hadoop 的 并 行 应 用 
程序 。 本 章 又 介绍 了 Hadoop 的 数据 管理 ， 主 要 包括 Hadoop 的 分 布 式 文 


件 系统 HDFS、 分 布 式 数据 库 HBase 和 数据 仓库 工具 Hive。 它 们 都 有 自 
己 完 整 的 数据 定义 和 体系 结构 ， 以 及 实现 数据 从 宏观 到 微观 的 立体 管 
理 数据 办 法 ， 这 都 为 Hadoop 平 台 的 数据 存储 和 任务 处 理 打下 了 基础 。 


本 章 最 后 还 介绍 了 关于 Hadoop 的 一 些 基 本 的 安全 蛇 略 ， 包 括 用 户 
权限 管理 、HDFS 安 全 策略 和 MapReduce 安 全 策略 ， 为 用 户 的 实际 使 用 
提供 了 人 参考。 本章 中 的 许多 内 容 在 本 书后 面 的 章节 中 会 详细 介绍 。 


2% ”Hadoop 的 安装 与 配置 


在 Linux 上 安装 与 配置 Hadoop 
在 Mac OSX 上 安装 与 配置 Hadoop 
在 Windows 上 安装 与 配置 Hadoop 
安装 和 配置 Hadoop 集 群 

日 志 分 析 及 几 个 小 技巧 
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Hadoop 的 安装 非 常 简 单 ， 大 家 可 以 在 官网 上 下 载 到 最 新 的 几 个 版 
本 ， 和 截至 本 书 截 稿 时 ，Hadoop 的 最 新 版 本 是 1.0.1， 下 载 网 址 为 
http: //apache.etoak.com//hadoop/core/ ° 


Hadoop 是 为 了 在 Linux 平 台 上 使 用 而 开发 的 ， 但 是 在 一 些 主流 的 
操作 系统 如 UNIX、Windows 甚 至 Mac OS X 系 统 上 Hadoop 也 运行 良 
好 。 不 过 ， 在 Windows 上 运行 Hadoop 稍 显 复杂 ， 首 先 必 须 安 装 Cygwin 
来 模拟 Linux 环 境 ， 然 后 才能 安装 Hadoop。 


本 章 将 介绍 在 Linux、Mac OS X 和 Windows 系 统 上 安装 最 新 的 
Hadoop1.0.1 版 本 ， 其 中 ，Linux 系 统 是 Ubuntu 11.10, Mac OS X 系 统 是 
10.7.3 版 本 ，Windows 系 统 采用 Windows Xp sp3。 这 些 安装 步 又 均 由 笔 
者 成 功 实践 过 ， 大 家 可 直接 参照 执行 。 


2.1 在 Linux 上 安装 与 配置 Hadoop 


在 Linux 上 安装 Hadoop 之 前 ， 需 要 先 安装 两 个 程序 : 


1) JDK 1.6 (或 更 高 版 本 ) 。Hadoop 是 用 Java 编 写 的 程序 ， 
Hadoop 的 编译 及 MapReduce 的 运行 都 需要 使 用 JDK。 因 此 在 安装 


Hadoop 前 ， 必 须 安装 JDK 1.6 或 更 高 版 本 。 


2) SSH (ZEINEN) ， 推 荐 安装 OpenSSH。Hadoop 需 要 通过 
SSH 来 启动 Slave 列 表 中 各 人 台 主 机 的 守护 进程 ， 因 此 SSH 也 是 必须 安装 
的 ， 即 使 是 安装 伪 分 布 式 版 本 〈 因 为 Hadoop 并 没有 区 分 开 集 群 式 和 伪 
分 布 式 ) 。 对 于 伪 分 布 式 ，Hadoop 会 采用 与 集群 相同 的 处 理 方式 ， 即 
按 次 序 启动 文件 conf/slaves 中 记载 的 主机 上 的 进程 ， 只 不 过 在 伪 分 布 式 
中 Salve 为 localhost ( 即 为 自身 ) ， 所 以 对 于 伪 分 布 式 Hadoop, SSH 一 样 
是 必需 的 。 


大 大 


2.1.1 “48JDK 1.6 


下 面 介绍 安装 JDK 1.6 的 具体 步骤 。 


(1) 下 载 和 安装 JDK 1.6 


确保 可 以 连接 到 互联 网 ， 从 
http: //www.oracle.com/technetwork/java/javase/downloads 页 面 下 载 JDK 
1.6 安 装 包 (文件 名 类 似 jdk-***-linux-i586.bin， 不 建议 安装 JDK 1.7 版 
本 ， 因 为 并 不 是 所 有 软件 都 支持 1.7 版 本 ) 到 JDK 安 装 目录 (本 章 假 设 
IDK 安 装 目录 均 为 /asVlib/jvnyjdk) ° 


(2) 手动 安装 JDK 1.6 
在 终端 下 进入 JDK 安 装 目 未 ， 并 输入 命令 


sudo chmod u+x jdk-***-linux-i586.bin 


BAENA DT eT , EAA tS 


sudo-s./jdk-***-linux-1i586.bin 
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sudo gedit/etc/profile 


输入 密码 ， 打 开 profile 文 件 。 


在 文件 最 下 面 输入 如 下 内 容 : 


#set Java Environment 

export JAVA_HOME=/usr/1ib/jvm/jdk 

export CLASSPATH=".: $JAVA_HOME/1ib: $CLASSPATH" 
export PATH="$JAVA_HOME/: $PATH" 


一 步 的 意义 是 配置 环境 变量 ， 使 系统 可 以 找到 JDK。 
(4) 验证 JDK 是 否 安装 成 功 输入 命令 : 


java-version 


会 出 现 如 下 JDK 版 本 信息 : 


java version"1.6.0 22" 
Java (TM) SE Runtime Environment (build 1.6.0_22-b04) 
Java HotSpot (TM) Client VM (build 17.1-b03, mixed mode, sharing) 


如 果 出 现 上 述 JDK 版 本 信息 ， 说 明 当 前 安装 的 JDK 并 未 设置 成 
Ubuntu 系 统 默认 的 JDK， 接 下 来 还 需要 手动 将 安装 的 JDK 设 置 成 系统 
默认 的 JDK。 


(5) 手动 设置 ; 统 默 认 JDK 
在 终端 依次 输入 命令 


sudo update-alternatives--install/usr/bin/java 
java/usr/lib/jvm/jdk/bin/java 300 


sudo update-alternatives--install/usr/bin/javac 
javac/usr/1lib/jvm/jdk/bin/javac 300 
sudo update-alternatives--config java 


接 下 来 输入 java-version 就 可 以 看 到 所 安装 的 JDK 的 版 本 信息 了 。 


2.1.2 ”配置 SSH 免 密码 登录 


同样 以 Ubuntu 为 例 ， 假 设 用 户 名 为 ui 
1) 确认 已 经 连接 上 互联 网 ， 然 后 输入 命令 


sudo apt-get install ssh 


2) 配置 为 可 以 免 密 码 登 录 本 机 “。 首 先 查 看 在 u 用 户 下 是 个 存在 .ssh 
文件 夹 〈 注 意 ssh 前 面 有 “.”， 这 征 一 个 隐藏 文件 夹 ) ， 输 入 命令 : 


1ls-a/home/u 


般 来 说 ， 安 装 SSH 时 会 自动 在 当前 用 户 下 创建 这 个 隐藏 文件 
夹 ， 如 果 没 有 ， 可 以 手动 创建 一 个 。 


接 下 来 ， 输 入 命令 (注意 下 面 命令 中 不 是 双 引 号 ， 是 两 个 单 引 


c E 


ssh-keygen-t dsa-P''-f~/.ssh/id_dsa 


解释 一 下 ，ssh-keygen 代 表 生 成 密 钥 ; t (注意 区 分 大 小 写 ) 表示 
指定 生成 的 密 钥 类 型 ，dsa 是 dsa 密 钥 认 证 的 意思 ， 即 密 钥 类 型 ，-P 用 


于 提供 密语 ; -f 指 定 生成 的 密 钥 文件 。 在 Ubuntu 中 ， 一 代表 当前 用 户 
文件 夹 ， 此 处 即 /home/u。 


这 个 命令 会 在 .ssh 文 件 夹 下 创建 id_dsa 及 id_dsa.pub 两 个 文件 ， 这 是 
SSH 的 一 对 私 钥 和 公 钥 ， 类 似 于 钥匙 和 锁 ， 把 id_dsa.pub ( 公 钥 ) 追加 
到 授权 的 key 中 去 。 


输入 命令 : 
cat~/.ssh/id_dsa.pub> >~/.ssh/authorized_keys 


这 条 命令 的 功能 是 把 公 钥 加 到 用 于 认证 的 公 钥 文件 中 ， 这 里 的 
authorized_keys 是 用 于 认证 的 公 钥 文件 。 


至 此 免 密码 登录 本 机 已 配置 完毕 

3) 验证 SSH 是 否 已 安 闭 成功， 以 及 是 否 可 以 免 密码 登录 本 机 。 
输入 命令 : 

ssh-version 

显示 结果 : 


OpenSSH_5.8p1 Debian-7ubuntu1, OpenSSL 1.0.0e 6 Sep 2011 
Bad escape character'rsion'. 


显示 SSH 已 经 安装 成 功 了 。 
输入 命令 : 
ssh localhost 


会 有 如 下 显示 : 


The authenticity of host'localhost (: 1) 'can't be established. 

RSA key fingerprint is 8b: c3: 51: a5: 2a: 31: b7: 74: 06: 9d: 62: 
04: 4f: 84: f8: 77. 

Are you sure you want to continue connecting (yes/no) ?yes 

Warning: Permanently added'localhost' (RSA) to the list of known 
hosts. 

Linux master 2.6.31-14-generic#48-Ubuntu SMP Fri Oct 16 14: 04: 
26 UTC 2011 1686 

To access official Ubuntu documentation, please visit: 

http: //help.ubuntu.com/ 

Last login: Sat Feb 18 17: 12: 40 2012 from master 

admin@Hadoop: ~$ 
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yes 即 可 进入 。 实 际 上 ， 在 Hadoop 的 安装 过 程 中 ， 是 否 免 密码 登录 是 无 
天 紧要 的 ， 但 是 如 果 不 配置 免 密码 登录 ， 每 次 局 动 Hadoop 都 需要 输入 
密码 以 登录 到 每 台 机 器 的 DataNode 上 ， 考 虑 到 一 般 的 Hadoop 集 群 动 辑 
拥有 数 百 或 上 千 台 机 器 ， 因 此 一 般 来 说 都 会 配置 SSH 的 免 密 码 登 录 。 


2.1.3” 安 和 狠 并 运行 Hadoop 


介绍 Hadoop 的 安装 之 前 ， 先 介绍 一 下 Hadoop 对 各 个 节点 的 角色 定 


X o 


Hadoop 分 别 从 三 个 角度 将 主机 划分 为 两 种 角色 。 人 第 一 ， 最 基本 的 
划分 为 Master 和 Slave， 即 主人 与 双 隶 ; 第 二 ， 从 HDFS 的 角度 ， 将 主 
机 划分 为 NameNode 和 DataNode 〈 在 分 布 式 文件 系统 中 ， 目 录 的 管理 
很 重要 ， 管 理 目录 相当 于 主人 ， 而 NameNode 就 是 目录 管理 者 ) ; 第 
三 ， 从 MapReduce 的 角度 ， 将 主机 划分 为 JobTracker 和 TaskTracker (一 
个 Job 经 常 被 划分 为 多 个 Task， 从 这 个 角度 不 难 理解 它们 之 间 的 关 
ES 


Hadoop 有 官方 发 行 版 与 cloudera 版 ， 其 中 cloudera 版 是 Hadoop 的 两 
用 版 本 ， 这 里 先 介 绍 Hadoop 官 方 发 行 版 的 安装 方法 。 


Hadoop 有 三 种 运行 方式 : 单机 模式 、 伪 分 布 式 与 完全 分 布 式 。 乍 
看 之 下 ， 前 两 种 方式 并 不 能 体现 云 计 算 的 优势 ， 但 是 它们 便于 程序 的 
测试 与 调试 ， 所 以 还 是 很 有 意义 的 。 


你 可 以 在 以 下 地 址 获得 Hadoop 的 官方 发 行 版 : 


http: //www.apache.org/dyn/closer.cgi/Hadoop/core/ ° 


下 载 hadoop-1.0.1.tar.gz 并 将 其 解压 ， 本 书后 续 都 默认 将 Hadoop 解 
压 到 /home/u/ 目 录 下 。 


(1) 单机 模式 配置 方式 


安装 单机 模式 的 Hadoop 无 须 配置 ， 在 这 种 方式 下 ，Hadoop 被 认为 
是 一 个 单独 的 Java 进 程 ， 这 种 方式 经 常用 来 调试 。 


(2) 伪 分 布 式 Hadoop 配 置 


可 以 把 伪 分 布 式 的 Hadoop 看 做 只 有 一 个 节点 的 集群 ， 在 这 个 集群 
中 ， 这 个 世 点 既是 Master， 也 是 Slave; 既是 NameNode， 也 是 


DataNode; 既是 JobTracker， 也 是 TaskTracker。 


伪 分 布 式 的 配置 过 程 也 很 简单 ， 只 需要 修改 儿 个 文件 。 
进入 conf 文 件 炎 ， 修 改 配置 文件 。 
指定 JDK 的 安装 位 置 : 


Hadoop-env.sh: 
export JAVA_HOME=/usr/1ib/jvm/jdk 


这 是 Hadoop 核 心 的 配置 文件 ， 这 里 配置 的 是 HDFS (Hadoop 的 分 
布 式 文件 系统 ) 的 地 址 及 端口 号 。 


conf/core-site. xml: 


<configuration> 

<property> 
<name>fs.default .name< /name > 
<value>hdfs: //localhost: 9000</value> 
</property> 

</configuration> 


以 下 是 Hadoop 中 HDFS 的 配置 ， 配 置 的 备份 方式 默认 为 3， 在 单机 
版 的 Hadoop 中 ， 需 要 将 其 改 为 1 。 


conf/hdfs-site. xml: 
<configuration> 

<property> 
<name>dfs.replication</name> 
<value >1</value> 
</property> 

</configuration> 


以 下 是 Hadoop 中 MapReduce 的 配置 文件 ， 配 置 JobTracker 的 地 址 及 
端口 。 


conf/mapred-site.xml: 
<configuration> 

<property> 

<name > mapred.job.tracker < /name> 
<value>localhost: 9001</value> 
</property> 

</configuration> 


接 下 来 ， 在 启动 Hadoop 前 ， 需 要 格式 化 Hadoop 的 文件 系统 
HDFS。 进 入 Hadoop 文 件 夹 ， 输 入 命令 : 


bin/Hadoop NameNode-format 


格式 化 文件 系统 ， 接 下 来 局 动 Hadoop 。 

输入 命令 ， 启 动 所 有 进程 : 
bin/start-all.sh 

最 后 ， 验 证 Hadoop 是 否 安装 成 功 。 
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http: //localhost: 50030 (MapReduce 的 Web 页 面 
http: //localhost: 50070 (HDFS 的 Web 页 面 ) 


如 果 都 能 查看 ， 说 明 Hadoop 已 经 安装 成 功 。 


对 于 Hadoop 来 说 ， 局 动 所 有 进程 是 必须 的 ， 但 是 如 果 有 必要 ， 你 
依然 可 以 只 启动 HDFS (start-dfs.sh) 或 MapReduce (start- 


mapred.sh) 。 


关于 完全 分 布 式 的 Hadoop 会 在 2.4 和 详 述 。 


2.2 ”在 Mac OSX 4325 Ac Hadoop 


由 于 现在 越 来 越 多 的 人 使 用 Mac Book， 故 笔者 在 本 章 中 增加 了 在 
Mac OS X 上 安装 与 配置 Hadoop 的 内 容 ， 供 使 用 Mac Book 的 读者 参 
we o 


2.2.1 安装 Homebrew 


Mac OS X 上 的 Homebrew 是 类 似 el 一 种 软件 包 管 理 
器 ， 利 用 它 可 以 自动 下 载 和 安装 软件 包 ， 安 装 Homebrew 之 后 ， 残 可 以 
使 用 Homebrew 目 动 下 载 安装 Hadoop。 安 装 Homebrew 的 步骤 如 下 : 


1) 从 Apple 官 方 下 载 并 安装 内 置 GCC 编译 器 一 Xcode (现在 版 本 
为 4.2) 。 安 装 Xcode 主要 是 因为 一 些 软件 包 的 安装 依赖 于 本 地 环境 ， 
需要 在 本 地 编译 源码 。Xcode 的 下 载 地 址 为 
https: //developer.apple.com/xcode/ ° 


2) 使 用 命令 行 安 装 Homebrew， 输 入 命令 : 


/usr/bin/ruby-e"$ (/usr/bin/curl-fksSL 
https: //raw.github.com/mxcl/homebrew/ 
master/Library/Contributions/install_homebrew.rb) " 


这 个 命令 会 将 Homebrew 安 装 在 /usr/local 目 录 下 ， 以 保证 在 使 用 
Homebrew 安 装 软件 包 时 不 用 使 用 sudo 命 令 。 安 装 完成 后 可 以 使 用 


2.2.2 {5-4 Homebrew Hadoop 


安 狠 完 Homebrew 之 后 ， 殊 可 以 在 命令 行 输入 下 面 的 命令 来 目 动 安 
装 Hadoop。 自动 安装 的 Hadoop 在 /usr/local/Cellar/hadoop 路 低下 。 需 要 
注意 的 是 ， 在 使 用 brew 安 装 软件 时 ， 会 目 动 检测 安装 包 的 依赖 关系 ， 
并 安装 有 依赖 关系 的 包 ， 在 这 里 brew 束 会 在 安装 Hadoop 时 目 动 下 载 
JDK 和 SSH， 并 进行 安装 。 


brew install hadoop 


2.2.3 配置 SSH 和 使 用 Hadoop 


接 下 来 需要 配置 SSH 免 密码 登录 和 局 动 Hadoop。 由 于 其 步 怠 和 内 
容 与 Linux 的 配置 完全 相同 ， 故 这 里 不 再 痪 述 。 


2.3 4£Windows 4248-5 Ac Hadoop 


2.3.1 安装 JDK 1.6 或 更 高 版 本 


相对 于 Linux, JDK 在 Windows 上 的 安装 过 程 更 容易 ， 你 可 以 在 
http: //www.java.com/zh_CN/download/manual.jsp 下 载 到 最 新 版 本 的 
JDK。 这 里 再 次 申明 ，Hadoop 的 编译 及 MapReduce 程 序 的 运行 ， 很 多 
地 方 都 需要 使 用 JDK 的 相关 工具 ， 因 此 只 安装 JRE 是 不 够 的 。 


安 狂 过 程 十 分 人 滑 单 ， 运 行 安 痛 程序 即 可 ， 程 序 会 目 动 配置 环境 变 
量 (在 之 前 的 版 本 中 还 没有 这 项 功能 ， 新 版 本 的 JDK 已 经 可 以 自动 配 
置 环境 变量 了 ) 。 


2.3.2 Æ Cygwin 


Cygwin 是 在 Windows 平 台 下 模拟 UNIX 环 境 的 一 个 工具 ， 只 有 通过 
它 才 可 以 在 Windows 环 境 下 安装 Hadoop。 可 以 通过 下 面 的 链接 下 载 
Cygwin: http: //www.cygwin.com/ ° 


双击 运行 安装 程序 ， 选 择 install from internet ° 
根据 网 络 状况 ， 选 择 合适 的 源 下 载 程序 。 


进入 select packages 界 面 ， 然 后 进入 Net， 选 中 OpenSSL 及 OpenSSH 
(如 图 2-1 所 示 ) 。 


o D J, Sk LibepenssLOS6: The OpenSSL rutisee emir « 
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LEN sph: The peat carrer ated client pragaat 


2-1 勾 选 openss1] 及 openssh 


如 果 打 算 在 Eclipse 上 编译 Hadoop， 还 必须 安 泌 Base Category FAY 
sed (如 图 2-2 所 示 ) 。 


2-2 “Ajiztsed 


另外 建议 安装 Editors Category 下 的 vim， 以 便 在 Cygwin 上 直接 修改 
配置 文件 。 


2.3.3 ”配置 环境 变量 


依次 右 击 “我 的 电脑 *， 在 弹出 的 快捷 亲 单 中 依次 单 击 “ 属 性 ”> “高 
级 系统 设置 "> “环境 变量 *”， 修 改 环境 变量 里 的 path 设 置 ， 在 其 后 添加 
CygwinhJbin H 5K ° 


2.3.4 ”安装 sshd 服 务 


单 击 桌 面 上 的 Cygwin 图 标 ， 启 动 Cygwin， 执 行 ssh-host-config 命 
令 ， 当 要 求 输入 Yes/No 时 ， 选 择 输入 No。 当 显示 “Have fun” 时 ， 表 示 
sshd 服 务 安装 成 功 。 


2.3.5 ”启动 sshd 服 务 


在 桌面 上 的 “我 的 电脑 "图标 上 右 击 ， 在 弹出 的 快捷 荣 单 中 单 击 “ 管 
”命令 ， 启 动 CYGWIN sshd 服 务 ， 或 者 直接 在 终端 下 输入 下 面 的 命 
令 启 动 服务 : 


net start sshd 


2.3.6 ”配置 SSH 免 密码 登录 
执行 ssh-keygen 命 令 生成 密 钥 文件 。 按 如 下 命令 生成 
authorized_keys 文 件 : 


cd~/.ssh/ 
cp id_rsa.pub authorized_keys 


这 一 步 操作 ， 后 续 的 操作 可 能 会 遇 到 错误 。 


接 下 来 ， 重 新 运行 Cygwin， 执 行 ssh localhost 命 令 ， 在 第 一 次 执行 
时 会 有 提示 ， 然 后 输入 yes， 直 接 回 车 即 可 。 


2.3.7 F-31447 Hadoop 


在 Windows 上 安装 Hadoop 与 在 Linux 上 安装 的 过 程 一 样 ， 这 里 就 不 
EHRT, DUA ER: 


1) 在 配置 conf/hadoop-evn.sh 文 件 中 Java 的 安装 路 径 时 ， 如 果 路 径 
之 间 有 空格 ， 需 要 将 整个 路 径 用 双 引 号 引起 来 。 例 如 可 以 进行 配置 : 


export JAVA_HOME="/cygdrive/c/Program Files/Java/jdk1.6.0_22" 


H Pcygdrive K7 Ze cygdrive Z jn AAAI AK © 


男 外 一 种 办 法 是 在 cygwin 窗 口 使 用 类 似 下 面 的 命令 创建 文件 链 
接 ， 使 后 面 的 文件 指向 Windows 下 安装 的 JDK， 然 后 将 conf/hadoop- 
env.Sh 中 JDK 配 置 为 此 链接 文件 : 


$ln-s/cygdrive/c/Program\Files/Java/jdk1.6.0_22/usr/local/jdk 


2) 在 配置 conf/mapred-site.xml 文 件 时 ， 应 增加 对 mapred.child.tmp 
属性 的 配置 ， 配 置 的 值 应 为 一 个 Linux 系 统 的 绝对 路 径 ， 如 果 不 配置 ， 
Job 在 运行 时 就 会 报错 。 具 体 配 置 为 : 


<property> 
<name>mapred.child.tmp</name > 
<value >/home/Administrator/hadoop-1.0.1/tmp</value> 


</property> 


同样 需要 在 conf/core-site.xml 文 件 中 为 hadoop.tmp.dir 属 性 配置 一 个 
和 mapred.child.tmp 属 性 相似 的 绝对 路 径 。 


2.4 ”安装 和 配置 Hadoop 集 群 


2.4.1 网 络 拓扑 


通常 来 说 ， 一 个 Hadoop 的 集群 体系 结构 由 两 层 网 络 拓扑 组 成 ， 如 
图 2-3 所 示 。 结 合 实际 应 用 来 看 ， 每 个 机 架 中 会 有 30~~40 人 台 机 器 ， 这 些 
机 路 共 至 一 个 1GB 带 宽 的 网 络 交 换 机 。 在 所 有 的 机 染 之 上 还 有 一 个 核 
心 交 换 机 或 路 由 侨 ， 通 党 来 说 其 网 络 交 换 能 力 为 1GB 或 更 高 。 可 以 很 
明显 地 看 出 ， 同 一 个 机 架 中 机 器 市 点 之 间 的 市 宽 资 源 肯 定 要 比 不 同 机 
架 中 机 器 节点 间 丰 富 。 这 也 是 Hadoop 随 后 设计 数据 读 写 分 发 策略 要 考 
虑 的 一 个 重要 因素 。 
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2-3 ”Hadoop 的 网 络 拓扑 结构 


2.4.2 ”定义 集群 拓扑 


在 实际 应 用 中 ， 为 了 使 Hadoop 集 群 获得 更 高 的 性 能 ， 读 者 需要 配 
置 集群 ， 使 Hadoop 能 够 感知 其 所 在 的 网 络 拓扑 结构 。 当 然 ， 如 果 集 群 
中 机 器 数量 很 少 且 存 在 于 一 个 机 架 中 ， 那 么 就 不 用 做 太 多 额外 的 工 
作 ; 而 当 集群 中 存在 多 个 机 织 时 ， 就 要 使 Hadoop 请 晰 地 知道 每 台 机 器 
所 在 的 机 架 。 随 后 ， 在 处 理 MapReduce 任 务 时 ，Hadoop 就 会 优先 选择 
在 机 染 内 部 做 数据 传输 ， 而 不 是 在 机 架 间 传输 ， 这 样 就 可 以 更 充分 地 
使 用 网 络 带宽 资源 。 同 时 ，HDFS 可 以 更 加 智能 地 部 署 数据 副 本 ， 并 
在 性 能 和 可 靠 性 间 找 到 最 优 的 平衡 。 


在 Hadoop 中 ， 网 络 的 拓扑 结构 、 机 器 下 点 及 机 织 的 网 络 位 置 定位 
都 是 通过 树 结 构 来 描述 的 。 通 过 树 结构 来 确定 节点 间 的 距离 ， 这 个 距 
离 挟 Hadoop 做 决策 判断 时 的 参考 因素 。NameNode 也 是 通过 这 个 距离 
来 决定 应 该 把 数据 副本 放 到 哪里 的 。 当 一 个 Map 任 务 到 达 时 ， 它 会 被 
分 配 到 一 个 TaskTracker 上 运行 ，JobTracker 节 点 则 会 使 用 网 络 位 置 来 确 


定 Map 任 务 执行 的 机 器 节点 。 


在 图 2-3 中 ， 笔 者 使 用 树 结构 来 描述 网 络 拓扑 结构 ， 主 要 包括 两 个 
网 络 位 置 ， 交换机 /机 架 1 和 交换 机 /机 架 2。 因 为 图 2-3 中 的 集群 只 有 一 
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在 配置 Hadoop 时 ，Hadoop 会 确定 地 点 地 址 和 其 网 络 位 置 的 映射 ， 
此 映射 在 代码 中 通过 Java 接 口 DNSToSwitchMaping 实 现 ， 代 码 如 下 : 


public interface DNSToSwitchMapping{ 
public List<String>resolve (List<String>names) ; 


其 中 参数 names 是 IP 地 址 的 一 个 List 数 据 ， 这 个 函数 的 返回 值 为 对 
应 网 络 位置 的 字符 串 列 表 。 在 opologynode.switch.mapping.impl 中 的 配 
置 参 数 定 义 了 一 个 DNSToSwitchMaping 接 口 的 实现 ，NameNode 通 过 它 
确定 完成 任务 的 机 器 节点 所 在 的 网 络 位 置 。 


FE 2-302, AT DORR AL > TR 2 > T RBR BILAL 
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默认 的 接口 实现 ScriptBasedMapping。 它 可 以 运行 用 户 自 定义 的 一 个 脚 
本 区 完成 映射 。 如 采用 户 没有 定义 映 映 ， 它 会 将 所 有 的 机 右 下 点 映射 
到 一 个 单独 的 网 络 位置 中 默认 的 机 加 上; QR Ae RE, AB 
这 个 脚本 的 位 置 由 topology.script.file.name 的 属性 控制 。 脚 本 必须 获取 
一 批 主机 的 人 P 地 址 作为 参数 进行 映 冉 ， 同 时 生成 一 个 标准 的 网 络 位 置 


给 输出 。 


2.4.3 ”建立 和 安装 Cluster 


要 建立 Hadoop 集 群 ， 首 先 要 做 的 就 是 选择 并 购买 机 器 ， 在 机 器 到 
手 之 后 ， 就 要 进行 网 络 部 署 并 安装 软件 了 。 安 装 和 配置 Hadoop 有 很 多 
方法 ， 这 部 分 内 容 在 前 文 已 经 详细 讲解 过 〈 见 2.1 节 、2.2 节 和 2.3 节 ) ， 
同时 还 告诉 了 读者 在 实际 部 署 时 应 该 考虑 的 情况 。 


为 了 简化 我 们 在 每 个 机 器 节点 上 安装 和 维护 相同 软件 的 过 程 ， 通 
常会 采用 自动 安装 法 ， 比 如 Red Hat Linux 下 的 Kickstart 或 Debian 的 全 程 
自动 化 安装 。 这 些 工 具 先 会 记录 你 的 安装 过 程 ， 以 及 你 对 选项 的 选 
择 ， 然 后 根据 记录 来 自动 安装 软件 。 同 时 它们 会 在 每 个 进程 结尾 提供 
一 个 钩子 执行 脚本 ， 在 对 那些 不 包含 在 标准 安装 中 的 最 终 系统 进行 调 
整 和 上 自 定义 时 这 是 非常 有 用 的 。 


下 面 我 们 将 具体 介绍 如 何 部 署 和 配置 Hadoop。Hadoop 为 了 应 对 不 
同 的 使 用 需求 〈 不 管 是 开发 、 实 际 应 用 还 是 研究 ) ， 有 着 不 同 的 运行 
方式 ， 包 括 单机 式 、 单 机 伪 分 布 式 、 完 全 分 布 式 等 。 前 面 已 经 详细 介 
绍 了 在 windows、MacOSX 和 Linux 下 Hadoop 的 安装 和 配置 。 下 面 将 对 
Hadoop 的 分 布 式 配 置 做 具体 的 介绍 。 


1.Hadoop 集 群 的 配置 


FERC NAA, KAYE Sb HadoopH lic 8 1K tal 
单 ， 但 那 只 是 最 基本 的 配置 。 


Hadoop 的 配置 文件 分 为 两 类 。 


1) 只 读 类 型 的 默认 文件 : src/core/core-default.xml ` src/hdfs/hdfs- 


default.xml ` src/mapred/mapred-default.xml ` conf/mapred-queues.xml ° 


2) 定位 (site-specific) 设置 : conf/core-site.xml ` conf/hdfs- 


site.xml ` conf/mapred-site.xml ` conf/mapred-queues.xml ° 


除 此 之 外 ， 也 可 以 通过 设置 conf/Hadoop-env.sh 来 为 Hadoop 的 守护 
进程 设置 环境 变量 (在 bin/ 文 件 夹 内 ) 。 


Hadoop 是 通过 org.apache.hadoop.conf.configuration 来 读 取 配置 文件 
的 。 在 Hadoop 的 设置 中 ，Hadoop 的 配置 是 通过 资源 (resource) 定位 
的 ， 每 个 资源 由 一 系列 name/value 对 以 XML 文件 的 形式 构成 ， 它 以 一 个 
字符 串 命 名 或 以 Hadoop 定 义 的 Path 类 命名 (这 个 类 是 用 于 定义 文件 系 
统 内 的 文件 或 文件 夹 的 ) 。 如 果 是 以 字符 串 命 名 的 ，Hadoop 会 通过 
classpath 调 用 此 文件 。 如 果 以 Path 类 命名 ， 那 么 Hadoop 会 直接 在 本 地 文 
件 系统 中 搜索 文件 。 


资源 设 定 有 两 个 特 操 ， 下 面 进行 具体 介绍 。 


1) Hadoop 人 允许 定义 最 终 参数 (final parameters) ， 如 果 任 意 资 源 
声明 了 final 这 个 值 ， 那 么 之 后 加 载 的 任何 资源 都 不 能 改变 这 个 值 ， 定 义 
最 终 资源 的 格式 是 这 样 的 : 


<property> 
<name>dfs.client.buffer.dir</name> 
<value >/tmp/Hadoop/dfs/client </value> 
<fnal>true</fnal>//jt#ix ME 
</property> 


2) Hadoop 人 允许 参数 传递 ， 示 例如 下 ， 当 tenpdir 被 调用 时 ，basedir 
会 作为 值 被 调用 。 

<property> 

<name> basedir < /name > 

<value >/user/${user .name}</value> 

<property> 

<property> 

<name> tempdir < /name > 


<value >${basedir}/tmp</value > 
</property> 


前 面 提 到 ， 读 者 可 以 通过 设置 conf/Hadoop-env.sh 为 Hadoop 的 守护 
进程 设置 环境 变量 。 一 般 来 说 ， 大 家 至 少 需要 在 这 里 设置 在 主机 上 安 
装 的 JDK 的 位 置 (JAVA_HOME) ， 以 使 Hadoop 找 到 JDK 。 大 家 也 可 以 
在 这 里 通过 HADOOP _* OPTS 对 不 同 的 守护 进程 分 别 进 行 设置 ， 如 表 
2-1 所 示 。 


% 2-1 Hadoop 的 守护 进程 配置 表 


守护 进程 (Dacmen) Ae Wisi (Configure Options) 
NameNode HADOOP NAMENODE OPTS 

DataNode HADOOP DATANODE OPTS 
SecondaryNameNode HADOOP SECONDARYNAMENODE OPTS 
JobTracker HADOOP JOBTRACKER OPTS 
TaskTracker HADOOP TASKTRACKER OPTS 


例如 ， 如 采 想 设置 NameNode 使 用 parallealGC， 那 么 可 以 这 样 写 : 


export HADOOP_NameNode_OPTS="- XxX: 
+UseParalle1GC${HADOOP_NAMENODE_OPTS}" 


在 这 里 也 可 以 进行 其 他 设置 ， 比 如 设置 Java 的 运行 环境 
(HADOOP_OPTS) ， 设 置 日 志文 件 的 存放 位 置 
(HADOOP_LOG_DIR) ， 或 者 SSH 的 配置 
(HADOOP_SSH_OPTS) ， 等 等 。 


天 于 conf/core-site.xml] ` conf/hdfs-site.xml 、conf/mapred-site.xml 的 ] 


配置 如 表 2-2 一 表 2-4 所 示 。 


表 2-2 conf/core-site.xm! 的 配置 


$e 
C 


值 《Value) 


NameNode ft) IP Hh R E 


®& (Parameter) 


fs.default.name 


3 2-3 confihdfs-site.xml 的 配置 


值 ¢ Value) 
NameNode 存 企 名 字 空 间 及 元 报 日 志 的 位 置 
DataNode 存储 数据 热 的 位 置 


4% (Parameter) 
dfs.name.dir 


dfs.data.dir 


$ 2-4 confimapred-site.xml 的 配置 
{fi ¢ Value ) 
JobTracker 的 IP 地 址 及 端口 


MapReduce 在 HDES 上 存储 文件 的 位 置 ， 
mapred/systeny 


% (Parameter } 


mapreduce.jobtracker.address 
mapreduce.jobtracker.system.dir 


mapreduce.cluster.local dir 
mapred.tasktracker.{map|reduce} .tasks. maximum 
dfs hosts/dfs.hosts.exclude 允许 或 禁 引 的 DataNode 列表 


mapreduce.jobtrackcr.hosts. filename/ en aoe : as as 
` p TUF RAE AY TaskTrackers 列表 
mapreduce.jobtracker. hosts.exclude. filename 允许 或 禁止 的 Task Trackers AA 

布尔 类 型 ， 
修改 


表示 Job 存 取 控制 列表 二 


mapreduce.cluster.job-authorization-enabled 


一 般 而 言 ， 除 了 规定 端口 、IP 地 址 、 文 件 的 存储 位 置 外 ， 


置 都 不 是 必须 修改 的 ， 可 以 根据 读者 的 需要 决定 采用 默认 配 
己 修 改 。 还 有 一 点 需要 注意 的 是 ， 以 上 配置 都 被 默认 为 最 终 
parameters) ， 这 些 


参数 都 不 可 以 在 程序 中 再 次 修改 。 


参 


SN 


接 下 来 可 以 看 一 下 conf/mapred-queues.xml 的 配置 列表 ， 
ZR e 


3% 2-5 confimapred-queues.xml 的 配置 


qucucs 配置 文件 的 根 元 素 
: 布尔 类 型 <queues> 标签 的 属性 ， 表 示 存 取 控 制 列表 基 否 支持 控 

IsEnabled FRA 
STANIE Hi Job WUFE2S a Hre queue 的 管理 
queuc <qucucs> 的 子 匹 素 ， 定 义 系 统 中 的 queuec 
name <queuc> ATER, ERAF 
state <queuc> HFR, EE queue 的 状态 

< >T EXI ER AJ 该 用 户 或 
i : queue’ 的 PCR, MA REE Job 到 访 queue 的 用 户 或 组 
的 名 单列 表 

3 <qucuc> 的 子 元 素 六 定义 一 -个 个 能 更 更 改 Job 的 优先 级 或 能 杀 SE CLE 
acl-administer-job 交 到 该 queue 的 Job 用 户 或 组 的 名 革 列 表 
properties <queues> HITER. CINE 
property <properties> 的 子 元 素 
key <property> 的 子 元 素 
value <property> 的 属性 


TEZE 


fi 如 /Hadoop/ 


MapReduce HJER fF BETEA CE PE REE AY 
每 台 TaskTracker 所 能 运行 的 Map 或 Reduce 的 task Bek Bet 


+ Sob 的 观察 和 


其 他 配 
置 还 是 目 
参数 (final 


如 表 2-5 所 


a > 


A ei ay 刷新 
无 意义 


RL 
无 意义 
调度 程序 指定 
调度 程序 指定 


相信 大 家 不 难 猜 出 表 2-5 的 conf/mapred-queues.xml 文 件 是 用 来 做 什 
么 的 ， 这 个 文件 就 是 用 来 设置 MapReduce 系 统 的 队列 顺序 的 。queues 是 
JobTracker 中 的 一 个 抽象 概念 ， 可 以 在 一 定 程度 上 管理 Job， 因 此 它 为 管 
理 员 提 供 了 一 种 管理 Job 的 方式 。 这 种 控制 是 常见 且 有 效 的 ， 例 如 通过 
这 种 管理 可 以 把 不 同 的 用 户 划 分 为 不 同 的 组 ， 或 分 别 赋予 他 们 不 同 的 
级 别 ， 并 且 会 优先 执行 高 级 别 用 户 提交 的 Job 。 


按照 这 个 思想 ， 很 容易 想到 三 种 原则 : 


同一 类 用 户 提 交 的 Job 统 一 提交 到 同一 个 queue 中 ; 
运行 时 间 较 长 的 Job 可 以 提交 到 同一 个 queue 中 ; 
把 很 快 束 能 运行 完成 的 Job 划 分 到 一 个 queue 中 ， 并 且 限 制 queue 中 


Job 的 数量 上 限 。 


queue 的 有 效 性 很 依赖 在 JobTracker 中 通过 
mapreduce.jobtracker'taskscheduler 设 置 的 调度 规则 (scheduler) 。 一 些 
调度 算法 可 能 只 需要 一 个 queue， 不 过 有 些 调度 算法 可 能 很 复杂 ， 需 要 
设置 很 多 queue。 


对 queue 大 部 分 设置 的 更 改 都 不 需要 重新 局 动 MapReduce 系 统 吕 可 
以 生效 ， 不 过 也 有 一 些 更 改 需 要 重启 系统 才能 有 效 ， 具 体 如 表 2-5 所 


修 ° 


conf/mapred-queues. xml 的 文件 配置 与 其 他 文件 略 有 不 同 ， 配 置 格 
式 如 下 : 


<queues aclsEnabled="$aclsEnabled"> 
<queue > 

< name > $queue -name < /name > 
<state>$state</state> 

<queue > 

<name> $child-queue1< /name > 
<properties> 

<property key="$key"value="$value"/ > 
</properties> 

<queue > 

<name> $grand-child-queue1< /name > 
</queue > 

</queue > 

< queue > 

<name> $child-queue2< /name > 


< queue > 

< name> $leaf -queue < /name > 
<acl-submit-job>$acls</acl-submit-job> 
<acl-administer-jobs>$acls</acl-administer-jobs> 
<properties> 

<property key="$key"value="$value"/> 
</properties> 

</queue > 

</queue > 

</queues > 


以 上 这 些 就 是 Hadoop 配 置 的 主要 内 容 ， 其 他 天 于 Hadoop 配 置 方 面 
的 信息 ， 诸 如 内 存 配置 等 ， 如 果 有 兴趣 可 以 参阅 官方 的 配置 文档 。 


2. 一 个 具体 的 配置 


为 了 方便 阐述 ， 这 里 只 搭建 一 个 有 三 人 台 主 机 的 小 集群 。 


相信 大 家 还 没有 态 记 Hadoop 对 主机 的 三 种 定位 方式 ， 分 别 为 
Master 和 Slave, JobTracker 和 TaskTracker NameNode 和 DataNode。 在 分 
配 IP 地 址 时 我 们 顺便 规定 一 下 角色 。 


下 面 为 这 三 台 机 器 分 配 IP 地 址 及 相应 的 角色 : 


主机 名 ) 
主机 名 ) 
主机 名 ) 


10.37.128.2—master, namonode, jobtracker—master 
10.37.128.3-slave, dataNode, tasktracker—slave1 
10.37.128.4-slave, dataNode, tasktracker-slave2 ( 


首先 在 三 台 主 机 上 创建 相同 的 用 户 (这 是 Hadoop 的 基本 要 求 ) : 
1) 在 三 合 主机 上 均 安 装 JDK 1.6， 并 设置 环境 变量 。 

2) 在 三 台 主 机 上 分 别 设置 /etc/hosts 及 /etc/hostname 。 
hosts 这 个 文件 用 于 定义 主机 名 与 IP 地 址 之 间 的 对 应 关系 。 
/etc/hosts: 


127.0.0.1 localhost 
10.37.128.2 master 
10.37.128.3 slavel 
10.37.128.4 slave2 


hostname 这 个 文件 用 于 定义 Ubuntu 的 主机 名 ° 


/etc/hostname: 


“你 的 主机 名 ” (master, slave1“) 


3) 在 这 三 台 主 机 上 安装 OpenSSH， 并 配置 SSH 可 以 免 密 码 登录 。 


安装 方式 不 再 袭 述 ， 建 立 ~/.ssh 文 件 来 ， 如 果 已 存在 ， 则 无 须 创 
建 。 生 成 密 钥 并 配置 SSH 免 密码 登录 本 机 ， 输 入 命令 : 


ssh-keygen-t dsa-P''-f~/.ssh/id_dsa 
cat~/.ssh/id_dsa.pub> >~/.ssh/authorized_keys 


将 文件 复制 到 两 台 Slave 主 机 相同 的 文件 夹 内 ， 输 入 命令 : 


scp authorized_keys slave1: ~/.ssh/ 
scp authorized_keys slave2: ~/.ssh/ 


查看 是 否 可 以 从 Master 主 机 人 免 密 码 登 录 Slave， 输 入 命令 : 


ssh slavei 
ssh slave2 


4) 配置 三 台 主 机 的 Hadoop 文 件 ， 内 容 如 下 。 


conf/Hadoop-env. sh: 


export JAVA_HOME=/usr/1lib/jvm/jdk 


conf/core-site. xml: 


<?xml version="1.0"?> 

<?xml-stylesheet type="text/xsl"href="configuration.xsl"?> 
<! --Put site-specific property overrides in this file.--> 
<configuration> 

<property> 

<name> fs.default .name</name> 

<value>hdfs: //master: 9000</value> 

</property> 

<property> 

<name> hadoop.tmp.dir </name > 

<value>/tmp</value> 

</property> 

</configuration> 


conf/hdfs-site. xml: 


<?xml version="1.0"?> 

<?xml-stylesheet type="text/xsl"href="configuration.xsl"?> 
<! --Put site-specific property overrides in this file.--> 
<configuration> 

<property> 

<name>dfs.replication</name> 

<value >2</value> 

</property> 

</configuration> 


conf/mapred-site. xml: 


<?xml version="1.0"?> 

<?xml-stylesheet type="text/xsl"href="configuration.xsl"?> 
<! --Put site-specific property overrides in this file.--> 
<configuration> 

<property> 

<name>mapred.job.tracker < /name> 

<value>master: 9001</value> 

</property> 

</configuration> 


conf/masters: 
master 
conf/slaves: 
slave1 
slave2 


5) 启动 Hadoop。 


bin/Hadoop NameNode- format 
bin/start-all.sh 


你 可 以 通过 以 下 命令 或 者 通过 http: //master: 50070% 
http: /master: 50030 查 看 集群 状态 。 


Hadoop dfsadmin-report 
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如 果 大 家 在 安装 的 时 候 遇 到 问题 ， 或 者 按 步 又 安装 完成 却 不 能 运 
行 Hadoop， 那 么 建议 仔细 查看 日 志 信 息 。Hadoop 记 录 了 详尽 的 日 志 信 
日 志文 件 保存 在 logs 文 件 夹 内 。 


局 ’ 


无 论 是 启动 还 是 以 后 会 经 常用 到 的 MapReduce 中 的 每 一 个 Job， 或 


是 HDFS 等 相关 信息 ，Hadoop 均 存 有 日 志文 件 以 供 分 析 。 


例如 : NameNode 和 DataNode 的 namespaceID 不 一 致 ， 这 
很 多 人 在 安装 时 都 会 遇 到 的 。 日 志 信 息 为 : 


java.io.IOException: Incompatible namespaceIDs 


in/root/tmp/dfs/data: namenode 
namespaceID=1307672299; datanode namespaceID=389959598 


看 HDFS 一 直 没 有 局 动 ， 读 者 可 以 碍 询 日 志 ， 并 通过 日 志 进 行 分 
析 ， 日 志 提 示人 信息 显 示 了 NameNode 和 DataNode 的 namespaceID 不 一 


BL 


这 个 问题 一 般 是 由 于 两 次 或 两 次 以 上 格式 化 NameNode 造 成 的 ， 
有 两 种 方法 可 以 解决 ， 第 一 种 方法 是 删除 DataNode 的 所 有 资料 ， 第 二 
种 方法 就 是 修改 每 个 DataNode 的 namespaceID (位 


于 /dfs/data/currenVVERSION 文 件 中 ) 或 修改 NameNode 的 namespaceID 
(BL F/dfs/name/current/ VERSION XEF) 。 使 其 一 致 。 


下 面 这 两 种 方法 在 实际 应 用 也 可 能 会 用 到 。 


1) 重启 坏 掉 的 DataNode 或 JobTracker ° cies 群 的 某 单 个 节 


点 出 现 问 题 时 ， 一 般 不 必 重 局 整个 系统 ， 只 须 重启 这 个 节点 ， 它 会 自 
动 连 入 整个 集群 。 


在 坏死 的 和 点 上 输入 如 下 命令 即 可 : 


bin/Hadoop-daemon.sh start datanode 
bin/Hadoop-daemon.sh start jobtracker 


2) 动态 加 入 DataNode 或 TaskTracker。 下 面 这 条 命令 允许 用 户 动态 
地 将 某 个 万 点 加 入 到 集群 中 。 


bin/Hadoop-daemon.sh--config./conf start datanode 
bin/Hadoop-daemon.sh--config./conf start tasktracker 


2.6 本章 小 结 


本 章 主 要 讲解 了 Hadoop 的 安装 和 配置 过 程 。Hadoop 的 安 闭 过 程 并 
不 复杂 ， 基 本 配置 也 简单 明了 ， 其 中 有 几 个 关键 点 : 


Hadoop 主 要 是 用 Java 语 言 写 的 ， 它 无 法 使 用 一 般 Linux 预 装 的 
OpenJDK， 因 此 在 安装 Hadoop 前 要 先 安装 JDK (版 本 要 在 1.6 以 上 ) ; 


作为 分 布 式 系 统 ，Hadoop 需 要 通过 SSH 的 方式 启动 处 于 slave 上 的 
程序 ， 因 此 必须 安装 和 配置 SSH © 


由 此 可 见 ， 在 安装 Hadoop 前 需要 安装 JDK 及 SSH ° 


Hadoop 在 Mac OS X 上 的 安装 与 Linux 雷 同 ， 在 Windows 系 统 上 的 
安装 与 在 Linux 上 有 一 点 不 同 ， 葡 是 在 Windows 系 统 上 需要 通过 Cygwin 
模拟 Linux 环 境 ， 而 SSH 的 安装 也 需要 在 安装 Cygwin 时 进行 选择 ， 请 不 
要 未 一 点 。 


集群 配置 只 要 记 住 conf/Hadoop-env.sh 、conf/core-site.xml 、 
conf/hdfs-site.xml ` conf/mapred-site.xml ` conf/mapred-queues.xmlj 这 5 个 
文件 的 作用 即 可 ， 另 外 Hadoop 有 些 配置 是 可 以 在 程序 中 修改 的 ， 这 部 
分 内 容 不 是 本 章 的 重点 ， 因 此 没有 详细 说 明 。 
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2004 年 ，Google 发 表 了 一 篇 论文 ， 向 全 世界 的 人 们 介绍 了 
MapReduce。 现 在 已 经 到 处 都 有 人 在 谈论 MapReduce (微软 、 雅 虎 等 
大 公司 也 不 例外 ) 。 在 Google 发 表 论 文 时 ，MapReduce 的 最 大 成 就 是 
重 写 了 Google 的 索引 文件 系统 。 而 现在 ， 谁 也 不 知道 它 还 会 取得 多 大 
的 成 就 。MapReduce 补 广泛 地 应 用 于 日 志 分 析 、 海 量 数 据 排序 、 在 海 
量 数 据 中 查找 特定 模式 等 场景 中 。Hadoop 根 据 Google 的 论文 实现 了 
MapReduce 这 个 编程 框架 ， 并 将 源 代码 完全 页 献 了 出 来 。 本 章 就 是 要 
向 大 家 介绍 MapReduce 这 个 流行 的 编程 框架 。 


3.1 为 什么 要 用 MapReduce 


MapReduce 的 流行 是 有 理由 的 。 它 非常 简单 、 易 于 实现 且 扩 展 性 
强 。 大 家 可 以 通过 它 轻易 地 编写 出 同时 在 多 台 主 机 上 运行 的 程序 ， 也 
可 以 使 用 Ruby、Python、PHP 和 C++ 等 非 Java 类 语言 编写 Map 或 Reduce 
程序 ， 还 可 以 在 任何 安装 Hadoop 的 集群 中 运行 同样 的 程序 ， 不 论 这 个 
集群 有 多 少 台 主 机 。MapReduce 适 合 处 理 海量 数据 ， 因 为 它 会 被 多 台 
主机 同时 处 理 ， 这 样 通常 会 有 较 快 的 速度 。 


下 面 来 看 一 个 例子 。 

引文 分 析 是 评价 论文 好 坏 的 一 个 非常 重要 的 方面 ， 本 例 只 对 其 中 
最 简单 的 一 部 分 ， 即 论文 的 被 引用 次 数 进 行 了 统计 。 假 设 有 很 多 篇 论 
X (BAR) ， 且 每 篇 论文 的 引文 形式 如 下 所 示 : 
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在 单机 运行 时 ， 想 要 完成 这 个 统计 任务 ， 需 要 先 切 分 出 所 有 论文 
的 名 字 存 入 一 个 Hash 表 中 ， 然 后 过 历 所 有 论文 ， 查 看 引文 信息 ， 一 
计数 。 因 为 文章 数量 很 多 ， 需 要 进行 很 多 次 内 外 存 交 换 ， 这 无 疑 会 延 
长 程序 的 执行 时 间 。 但 在 MapReduce 中 ， 这 是 一 个 WordCount 就 能 解决 
的 问题 。 


3.2 ”MapReduce 计 算 模 型 


要 了 解 MapReduce， 首 先 需 要 了 解 MapReduce 的 载体 是 什么 。 在 
Hadoop 中 ， 用 于 执行 MapReduce 任 务 的 机 妖 有 两 个 角色 : 一 个 是 
JobTracker， 男 一 个 是 TaskTracker。JobTracker 是 用 于 管理 和 调度 工作 
的 ，TaskTracker 是 用 于 执行 工作 的 。 一 个 Hadoop 集 群 中 只 有 一 合 


JobTracker ° 
3.2.1 MapReduce Job 


在 Hadoop 中 ， 每 个 MapReduce 任 务 都 被 初始 化 为 一 个 Job ° BS 
Job 又 可 以 分 为 两 个 阶段 : Map 阶 段 和 Reduce 阶 段 。 这 两 个 阶段 分 别 用 
两 个 函数 来 表示 ， 即 Map 函 数 和 Reduce 函 数 。Map 函 数 接收 一 个 <key， 
value> 形 式 的 输入 ， 然 后 产生 同样 为 <key value> 形 式 的 中 间 输 出 ， 
Hadoop 会 负责 将 所 有 具有 相同 中 间 key 值 的 value 和 集合 到 一 起 传递 给 
Reduce 落 数 ，Reduce 范 数 接收 一 个 如 <key， (list of values) > 形式 
的 输入 ， 然 后 对 这 个 value 集 合 进行 处 理 并 输出 结果 ，Reduce 的 输出 也 


是 <key, value > 722084) ° 


为 了 方便 理解 ， 分 别 将 三 个 <key, value > tpid <k1, v1> > 
<k2，v2>、<k3，v3> ， 那 么 上 面 所 述 的 过 程 束 可 以 用 图 3-1 来 表示 


3-1 MapReduce 程 序数 据 变 化 的 基本 模型 


3.2.2 ”Hadoop 中 的 Hello World 程 序 


上 面 所 述 的 过 程 是 MapReduce 的 核心 ， 所 有 的 MapReduce 程 序 都 
具有 图 3-1 所 示 的 结构 。 下 面 我 再 举 一 个 例子 详 述 MapReduce 的 执行 过 
程 。 


大 家 初次 接触 编程 时 学 习 的 不 论 是 哪 种 语言 ， 看 到 的 第 一 个 示例 
程序 可 能 都 是 “Hello World”。 在 Hadoop 中 也 有 一 个 类 似 于 Hello World 
的 程序 。 这 就 是 wordCount。 本 节 会 结合 这 个 程序 具体 讲解 与 
MapReduce 程 序 有 关 的 所 有 类 。 这 个 程序 的 内 容 如 下 : 


package cn.edu.ruc.cloudcomputing.book.chapter03; 

import java.io.IOException; 

import java.util.*; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.conf.*; 

import org.apache.hadoop.io.*; 

import org.apache.hadoop.mapred.*; 

import org.apache.hadoop.util.*; 

public class WordCount{ 

public static class Map extends MapReduceBase implements Mapper 
<Longwritable, 

Text, Text, IntWritable>{ 

private final static IntWritable one=new IntWritable (1) ; 

private Text word=new Text () ; 

public void map (LongWritable key, Text value, OutputCollector< 
Text, 

Intwritable>output, Reporter reporter) throws IOException{ 

String line=value.toString () ; 

StringTokenizer tokenizer=new StringTokenizer (line) ; 

while (tokenizer.hasMoreTokens () ) { 

word.set (tokenizer.nextToken () ) ; 


output.collect (word, one) ; 


} 


} 
} 


public static class Reduce extends MapReduceBase implements 
Reducer <Text, 

Intwritable, Text, IntWritable>{ 

public void reduce (Text key, Iterator <IntWritable>values, 
OutputCollector<Text, 

IntWritable>output, Reporter reporter) throws IO0Exception{ 

int sum=0; 

while (values.hasNext () ) { 

sumt+=values.next () .get () ; 

} 

output.collect (key, new IntWritable (sum) ) ; 

} 

} 

public static void main (String[]args) throws Exception{ 

JobConf conf=new JobConf (WordCount.class) ; 

conf.setJobName ("wordcount") ; 

conf.setOutputKeyClass (Text.class) ; 

conf.setOutputValueClass (IntWritable.class) ; 

conf.setMapperClass (Map.class) ; 

conf.setReducerClass (Reduce.class) ; 

conf.setInputFormat (TextInputFormat.class) ; 

conf.setOutputFormat (TextOutputFormat.class) ; 

FileInputFormat.setInputPaths (conf, new Path (args[0]) ) ; 

FileOutputFormat.setOutputPath (conf, new Path (args[1]) ) ; 

JobClient.runJob (conf) ; 

} 

} 


同时 ， 为 了 叙述 方便 ， 设 定 两 个 输入 文件 ， 如 下 : 


echo"Hello World Bye World">file01 
echo"Hello Hadoop Goodbye Hadoop" > file02 


看 到 这 个 程序 ， 相 信 很 多 读者 会 对 众多 的 预定 义 类 感到 很 迷惑 。 
其 实 这 些 类 非常 简单 明了 。 首 先 ，WordCount 程 序 的 代码 虽 多 ， 但 是 
执行 过 程 却 很 简单 ， 在 本 例 中 ， 它 首 允 将 输入 文件 读 进 来 ， 然 后 交 由 
Map 程 序 处 理 ，Map 程 序 将 输入 读 入 后 切 出 其 中 的 单词 ， 并 标记 它 的 


数目 为 1， 形 成 <word，1> 的 形式 ， 然 后 交 由 Reduce 人 处 理 ，Reduce 将 
相同 key 值 (也 就 是 word) 的 value 值 收集 起 来 ， 形 成 <word, list of 1> 
的 形式 ， 之 后 将 这 些 1 值 加 起 来 ， 即 为 单词 的 个 数 ， 最 后 将 这 个 < key, 
value > 对 以 TextOutputFormat 的 形式 输出 到 HDFS 中 。 


针对 这 个 数据 流动 过 程 ， 我 挑 出 了 如 下 几 句 代码 来 表述 它 的 执行 

Whe: 

JobConf conf=new JobConf (MyMapre.class) ; 

conf.setJobName ("wordcount") ; 

conf.setInputFormat (TextInputFormat.class) ; 

conf.setOutputFormat (TextOutputFormat.class) ; 

conf.setMapperClass (Map.class) ; 

conf.setReducerClass (Reduce.class) ; 


FileInputFormat.setInputPaths (conf, new Path (args[0]) ) ; 
FileOutputFormat.setOutputPath (conf, new Path (args[1]) ) ; 


首先 讲解 一 下 Job 的 初始 化 过 程 。Main 函 数 调 用 Jobconf 类 来 对 
MapReduce Job 进 行 初始 化 ， 然 后 调用 setJobName () 方法 命名 这 
Job。 对 Job 进 行 合理 的 命名 有 助 于 更 快 地 找到 Job， 以 便 在 JobTracker 
和 TaskTracker 的 页 面 中 对 其 进行 监视 。 接 着 就 会 调用 setInputPath () 
AllsetOutputPath () 设置 输入 输出 路 径 。 下 面 会 结合 wordCount 程 序 重 
点 讲解 Inputformat () 、OutputFormat () 、Map () ` Reduce () 这 
4 种 方法 。 


1.InputFormat () 和 InputSplit 


InputSplit 是 Hadoop 中 用 来 把 输入 数据 传送 给 每 个 单独 的 Map， 
InputSplit 存 储 的 并 非 数据 本 号 ， 而 是 一 个 分 片 长 度 和 一 个 记录 数据 位 
置 的 数组 。 生 成 mmputSplit 的 方法 可 以 通过 Inputformat () 来 设置 。 当 
数据 传送 给 Map 时 ，Map 会 将 输入 分 片 传送 到 InputFormat O E, 
InputFormat () 则 调用 getRecordReader () 方法 生成 RecordReader, 
RecordReader 再 通过 creatKey () 、creatValue () 方法 创建 可 供 Map 处 
理 的 <key, value> 对 ， 即 <k1，v1>>。 简 而 言 之 ，InputFormat () X 
法 是 用 来 生成 可 供 Map 处 理 的 <key, value> 对 的 。 


Hadoop 预 定义 了 多 种 方法 将 不 同类 型 的 输入 数据 转化 为 Map 能 够 
处 理 的 <key, value>> 对 ， 它 们 都 继承 自 InputFormat， 分 别 是 : 


BaileyBorweinPlouffe. BbpInputFormat 
ComposableInputFormat 
CompositeInputFormat 

DBInputFormat 

DistSum. Machine. AbstractInputFormat 


FileInputFormat 


其 中 ，FileInputFormat 义 有 多 个 子 类 ， 分 别 为 : 


CombineFileInputFormat 
Key ValueTextInputFormat 
NLineInputFormat 
SequenceFileInputFormat 
TeralnputFormat 


TextInputFormat 


其 中 ，TextmputFormat 是 Hadoop 默 认 的 输入 方法 ， 在 
TextInputFormat 中 ， 每 个 文件 〈 或 其 一 部 分 ) 都 会 单独 作为 Map 的 输 
入 ， 而 这 是 继承 目 FileInputFormat 的 。 之 后 ， 每 行 数据 都 会 生成 一 条 
记录 ， 每 条 记录 则 表示 成 <key, value > 形式: 


key 值 是 每 个 数据 的 记录 在 数据 分 片 中 的 字 节 侦 移 量 ， 数 据 类 型 是 
LongWritable; 


value 值 是 每 行 的 内 容 ， 数 据 类 型 是 Text。 
也 就 是 说 ， 输 入 数据 会 以 如 下 的 形式 被 传 和 Map 中: 


file01: 

© hello world bye world 
file02 

© hello hadoop bye hadoop 


因为 fle01 和 file02 都 会 被 单独 输入 到 一 个 Map 中 ， 因 此 它们 的 key 
值 都 是 0 


2.OutputFormat () 


对 于 每 一 种 输入 格式 都 有 一 种 输出 格式 与 其 对 应 。 同 样 ， 默 认 的 
输出 格式 是 TextOutputFormat， 这 种 输出 方式 与 输入 类 似 ， 会 将 每 条 记 
孙 以 一 行 的 形式 存 入 文本 文件 。 不 过 ， 它 的 键 和 值 可 以 是 任意 形式 
的 ， 因 为 程序 内 部 会 调用 toString () 方法 将 键 和 值 转换 为 String 类 型 
再 输出 。 最 后 的 输出 形式 如 下 所 示 : 

aons 


Hello 2 
World 2 


3.Map () 和 Reduce () 


Map () 方法 和 Reduce () 方法 是 本 章 的 重点 ， 从 前 面 的 内 容 知 
道 ，Map () 函数 授 收 经 过 InputFormat 处 理 所 产 生 的 <k1，v1>>， 然 
后 输出 <k2，v2>。WordCount 的 Map () 画 数 如 下 : 


public class MyMapre{ 

public static class Map extends MapReduceBase implements Mapper 
<Longwritable, 

Text, Text, IntWritable>{ 

private final static IntWritable one=new IntWritable (1) ; 

private Text word=new Text () ; 

public void map (LongWritable key, Text value, 


OutputCollector<Text, IntwWritable>output, Reporter reporter) 
throws IOException{ 

String line=value.toString () ; 

StringTokenizer tokenizer=new StringTokenizer (line) ; 

while (tokenizer.hasMoreTokens () ) { 

word.set (tokenizer.nextToken () ) ; 

output.collect (word, one) ; 

} 

} 

} 


Map () ŽE H MapReduceBase, 3 H. © XI T Mapperiž 

口 ， 此 接口 是 一 个 范 型 类 型 ， 它 有 4 种 形式 的 参数 ， 分 别 用 来 指定 Map 

O 的 输入 key 值 类 型 、 输 入 value 值 类 型 、 输 出 key 值 类 型 和 输出 value 
值 类 型 。 在 本 例 中 ， 因 为 使 用 的 是 TextInputFormat， 它 的 输出 key 值 是 
LongWritable 类 型 ， 输 出 value 值 是 Text 类 型 ， 所 以 Map O 的 输入 类 型 
即 为 <LongWritable, Text>。 如 前 面 的 内 容 所 述 ， 在 本 例 中 需要 和 输出 
<word，1> 这 样 的 形式 ， 因 此 输出 的 key 值 类 型 是 Text， 和 输出 的 value 
值 类 型 是 IntWritable。 


实现 此 接口 类 还 需要 实现 Map () 方法 ，Map () 方法 会 负责 具 
体 对 输入 进行 操作 ， 在 本 例 中 ，Map O 方法 对 输入 的 行 以 空格 为 单 
位 进行 切 分 ， 然 后 使 用 OutputCollect 收 集 输 出 的 <word，1> ， 即 < 


k2, v2> œ 
下 面 来 看 Reduce () WAX: 


public static class Reduce extends MapReduceBase implements 
Reducer <Text, 
Intwritable, Text, IntWritable>{ 


public void reduce (Text key, Iterator <IntWritable>values, 

OutputCollector<Text, Intwritable>output, Reporter reporter) 
throws IOException{ 

int sum=0; 

while (values.hasNext () ) { 

sum+=values.next () .get () ; 


} 
output.collect (key, new Intwritable (sum) ) ; 


} 
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与 Map () XW, Reduce () 函数 也 继承 自 MapReduceBase， 需 
要 实现 Reducer 接 口 。Reduce () 函数 以 Map () 的 输出 作为 输入 ， 
此 Reduce () 的 输入 类 型 是 < Text, IneWritable >。 而 Reduce () 的 输 
出 是 单词 和 它 的 数目 ， 因 此 ， 它 的 输出 类 型 是 <Text, IntWritable> ° 
Reduce () KAE BSc iReduce () 方法 ， 在 此 方法 中 ，Reduce () 
函数 将 输入 的 key 值 作为 输出 的 key 值 ， 然 后 将 获得 的 多 个 value 值 加 起 
来 ， 作 为 输出 的 value 值 。 


4. 运 行 MapReduce 程 序 


读者 可 以 在 Eclipse 里 运行 MapReduce 程 序 ， 也 可 以 在 命令 行 中 运 
行 MapReduce 程 序 ， 但 是 在 实际 应 用 中 ， 还 是 推荐 到 命令 行 中 运行 程 
序 。 按 照 第 2 章 介 绍 的 步 又， 首先 安装 Hadoop ， 然 后 输入 编译 打包 生 
成 的 JAR 程 序 ， 如 下 所 示 〈 以 Hadoop-0.20.2 为 例 ， 安 装 路 径 是 
~/hadoop) : 


mkdir FirstJar 
javac-classpath~/hadoop/hadoop-0.20.2-core.jar-d FirstJar 
WordCount.java 


jar-cvf wordcount.jar-C FirstJar/. 


首先 建立 FirstJar， 然 后 编译 文件 生成 .class， 存 放 到 文件 夹 FirstJar 
中 ， 并 将 FirstJar 中 的 文件 打包 生成 wordcount.jar 文 件 。 


接着 上 传输 入 文件 〈 输 入 文件 是 包 e01，fle02， 存 放 在 


~/input) 


~/hadoop/bin/hadoop dfs-mkdir input 
~/hadoop/bin/hadoop dfs-put~/input/fileO*input 


在 此 上 传 过 程 中 ， 先 建立 文件 夹 input， 然 后 上 传 文件 他 e01、 
file02 到 input 中 。 


最 后 运行 生成 的 JAR 文 件 ， 为 了 叙述 方便 ， 先 将 生成 的 JAR 文 件 
放 入 Hadoop 的 安装 文件 夹 中 (HADOOP_HOME) ， 然 后 运行 如 下 命 


令 。 


~/hadoop/bin/hadoop jar wordcount.jar WordCount input output 

11/01/21 20: 02: 38 WARN mapred.JobClient: Use 
GenericOptionsParser for parsing the 

arguments.Applications should implement Tool for the same. 

11/01/21 20: 02: 38 INFO mapred.FileInputFormat: Total input 
paths to process: 2 

11/01/21 20: 02: 38 INFO mapred.JobClient: Running job: 
job_201101111819 0002 

11/01/21 20: 02: 39 INFO mapred.JobClient: map O%reduce 0% 

11/01/21 20: 02: 49 INFO mapred.JobClient: map 100%reduce 0% 

11/01/21 20: 03: 01 INFO mapred.JobClient: map 100%reduce 100% 

11/01/21 20: 03: 03 INFO mapred.JobClient: Job complete: 
job_201101111819 0002 

11/01/21 20: 03: 03 INFO mapred.JobClient: Counters: 18 

11/01/21 20: 03: 03 INFO mapred.JobClient: Job Counters 


11/01/21 
tasks=1 
11/01/21 
11/01/21 
11/01/21 
11/01/21 
11/01/21 
11/01/21 
11/01/21 
11/01/21 
11/01/21 
11/01/21 
records=0 
11/01/21 
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11/01/21 
records=4 
11/01/21 
11/01/21 
11/01/21 
11/01/21 
records=0 
11/01/21 
11/01/21 


Hadoop 命 
MapReducefz/¥ , 


to process: 


THO 


数量 是 2 个 ，Reduce 的 Task 数 量 是 一 


出 record 数 是 8 个 等 。 
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20: 
20: 
20: 
20: 
20: 
20: 
20: 
20: 
20: 
20: 


20: 
20: 


20: 


20: 
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03: 
03: 
03: 
03: 
03: 
03: 
03: 
03: 
03: 
03: 


03: 
03: 


03: 
03: 
03: 
03: 
03: 


03: 
03: 


S (注意 不 是 Hadoop 本 身 ) 会 启动 一 个 JVM 来 运行 这 
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03 
03 
03 
03 
03 
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04 
04 
04 
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04 
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INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 


INFO 
INFO 


INFO 


INFO 
INFO 
INFO 
INFO 


INFO 
INFO 
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mapred. 
mapred. 
mapred. 
mapred. 
mapred. 
mapred. 
mapred. 
mapred. 
mapred. 
mapred. 


mapred. 
mapred. 


mapred. 


mapred. 
mapred. 
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JobClient: 


JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 


JobClient: 
JobClient: 


JobClient: 


JobClient: 
JobClient: 
JobClient: 
JobClient: 


JobClient: 
JobClient: 


Launched reduce 


Launched map tasks=2 
Data-local map tasks=2 
FileSystemCounters 
FILE_BYTES_READ=100 
HDFS_BYTES_READ=46 
FILE_BYTES_WRITTEN=270 
HDFS_BYTES_WRITTEN=31 
Map-Reduce Framework 
Reduce input groups=4 
Combine output 


Map input records=2 
Reduce shuffle 


Reduce output 

Spilled Records=16 
Map output bytes=78 
Map input bytes=46 


Combine input 


Map output records=8 
Reduce input records=8 


X 个 


并 自动 获取 Hadoop 的 配置 ， 同 时 把 类 的 路 径 (及 其 
依赖 关系 ) 加 入 到 Hadoop 的 库 中 。 
从 这 里 面 可 以 看 到 ， 
job_201101111819_0002， 而 且 得 知 输入 文件 有 两 个 (Total input paths 


同时 还 


以 上 了 束 是 Hadoop Job 的 运行 记录 ， 
这 个 Job 被 赋予 了 一 个 ID 号 : 


“可 以 了 解 Map 的 输入 输出 记录 (record 数 及 字 


以 及 Reduce 的 输入 输出 记录 。 比 如 说 
个 ; Map 的 输入 record 数 是 2 个 


在 本 例 中 ，Map 的 task 
输 


可 以 通过 命令 查看 输出 文件 输出 文件 为 : 


bye 2 

hadoop 2 
hello 2 
world 2 


5 TA YAPI 


从 0.20.2 版 本 开始 ，Hadoop 提 供 了 一 个 新 的 API。 新 的 API 是 在 
org.apache.hadoop.mapreduce 中 的 ， 旧 版 的 API 则 在 
org.apache.hadoop.mapred 中 。 新 的 API 不 兼容 旧 的 API, WordCount 程 序 
用 新 的 API 重 写 如 下 : 


package cn.ruc.edu.cloudcomputing.book.chaptero3; 

import java.io. IOException; 

import java.util.*; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.conf.*; 

import org.apache.hadoop.io.*; 

import org.apache.hadoop.mapreduce. * 

import org.apache.hadoop.mapreduce.1lib.input.”*; 

import org.apache.hadoop.mapreduce.1lib.output.*; 

import org.apache.hadoop.util.*; 

public class WordCount extends Configured implements Tool{ 

public static class Map extends Mapper<Longwritable, Text, 
Text, IntWritable>{ 

private final static IntWritable one=new IntWritable (1) ; 

private Text word=new Text () ; 

public void map (LongWwritable key, Text value, Context context) 

throws IOException, InterruptedException{ 

String line=value.toString () ; 

StringTokenizer tokenizer=new StringTokenizer (line) ; 

while (tokenizer.hasMoreTokens () ) { 

word.set (tokenizer.nextToken () ) ; 

context.write (word, one) ; 


} 


} 

} 

public static class Reduce extends Reducer<Text, Intwritable, 
Text, 

Intwritable> { 

public void reduce (Text key, Iterable<IntWritable>values, 
Context context) 

throws IOException, InterruptedException{ 

int sum=0; 

for (IntWritable val: values) { 

sum+=val.get () ; 

} 

context.write (key, new IntWritable (sum) ) ; 

} 

} 

public int run (String[]Jargs) throws Exception{ 

Job job=new Job (getConf () ) ; 

job.setJarByClass (WordCount.class) ; 

job.setJobName ("wordcount") ; 

job.setOutputKeyClass (Text.class) ; 

job.setOutputValueClass (IntWritable.class) ; 

job.setMapperClass (Map.class) ; 

job.setReducerClass (Reduce.class) ; 

job.setInputFormatClass (TextInputFormat.class) ; 

job.setOutputFormatClass (TextOutputFormat.class) ; 

FileInputFormat.setInputPaths (job, new Path (args[0]) ) ; 

FileOutputFormat.setOutputPath (job, new Path (args[1]) ) ; 

boolean success=job.waitForCompletion (true) ; 

return success?0: 1; 

} 

public static void main (String[]args) throws Exception{ 

int ret=ToolRunner.run (new WordCount () , args) ; 

System.exit (ret) ; 

} 

} 


从 这 个 程序 可 以 看 到 新 旧 API 的 几 个 区 别 : 


在 新 的 API 中 ，Mapper 与 Reducer 已 经 不 是 接口 而 是 抽象 类 。 而 且 
Map 国 数 与 Reduce 函 数 也 已 经 不 再 实现 Mapper 和 Reducer 接 口 ， 而 是 继 


承 Mapper 和 Reducer 抽 和 象 类 。 这 样 做 更 容易 扩展 ， 因 为 添加 方法 到 抽象 
类 中 更 容易 。 


狐 的 API 中 更 广泛 地 使 用 了 context 对 象 ， 并 使 用 MapContext 进 行 
MapReduce 间 的 通信 ，MapContext 同 时 充当 OutputCollector 和 Reporter 
的 角色 。 


Job 的 配置 统一 由 Configurartion 来 完成 ， 而 不 必 和 额外 地 使 用 
JobConf 对 守护 进程 进行 配置 。 


由 Job 类 来 负责 Job 的 控制 ， 而 不 是 JobClient, JobClient 在 新 的 API 
中 已 经 被 删除 。 这 些 区 别 ， 都 可 以 在 以 上 的 程序 中 看 出 。 


3.2.3 ”MapReduce 的 数据 流 和 控制 沈 


前 面 已 经 提 到 了 MapReduce 的 数据 流 和 控制 流 的 关系 ， 本 市 将 结 
合 WordCount 实 例 具 体 解 释 它 们 的 售 义 。 图 3-2 是 上 例 中 WordCount 程 
序 的 执行 流程 。 


{ Client } g 


Waast 


—{ JobTracker } ing 


据 流 一 y 控制 流 


3-2 ”MapReduce 工 作 的 简易 图 


由 前 面 的 内 容 知 道 ， 负 责 控 制 及 调度 MapReduce 的 Job 的 是 
JobTracker， 人 负责 运行 MapReduce 的 Job 的 是 TaskTracker。 当 然 ， 
MapReduce 在 运行 时 是 分 成 Map Task 和 Reduce Task 来 处 理 的 ， 而 不 是 
完整 的 Job。 人 简单 的 控制 流 大 概 是 这 样 的 : JobTracker 调 度 任 务 给 
TaskTracker, TaskTracker 执 行 任务 时 ， 会 返回 进度 报告 。JobTracker 则 
会 记录 进度 的 进行 状况 ， 如 果 某 个 TaskTracker 上 的 任务 执行 失败 ， 那 


么 JobTracker 会 把 这 个 任务 分 配给 另 一 台 TaskTracker， 直 到 任务 执行 完 
成 o 


这 里 更 详细 地 解释 一 下 数据 流 。 上 例 中 有 两 个 Map 任 务 及 一 个 
Reduce 任 务 。 数 据 首 先 按 照 TextInputFormat 形 式 被 处 理 成 两 个 
InputSplit， 然 后 输入 到 两 个 Map 中 ，Map 程 序 会 读 取 InputSplit 指 定位 
置 的 数据 ， 然 后 按照 设 定 的 方式 处 理 该 数据 ， 最 后 写 入 到 本 地 磁盘 
中 。 注 意 ， 这 里 并 不 是 写 到 HDFS 上 ， 这 应 该 很 好 理解 ， 因 为 Map 的 输 
出 在 Job 完 成 后 即 可 删除 了 ， 因 此 不 需要 存储 到 HDFS 上 ， 虽 然 存 储 到 
HDFS 上 会 更 安全 ， 但 是 因为 网 络 传输 会 降低 MapReduce 任 务 的 执行 效 
率 ， 因 此 Map 的 输出 文件 是 写 在 本 地 磁盘 上 的 。 如 果 Map 程 序 在 没 来 
得 及 将 数据 传送 给 Reduce 时 就 月 演 了 (程序 出 错 或 机 器 崩 涡 ) ， 那 么 
JobTracker 只 需要 男 选 一 台 机 器 重新 执行 这 个 Task 就 可 以 了 。 


Reduce 会 读 取 Map 的 输出 数据 ， 合 并 value， 然 后 将 它们 输出 到 
HDFS 上 。Reduce 的 输出 会 占用 很 多 的 网 络 市 宽 ， 不 过 这 与 上 传 数据 
一 样 是 不 可 避免 的 。 如 果 大 家 还 是 不 能 很 好 地 理解 数据 流 的 话 ， 下 面 
有 一 个 更 具体 的 图 《WordCount 执 行 时 的 数据 流 ) ， 如 图 3-3 所 示 。 
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3-3 ”WordCount 数 据 流程 图 


相信 看 到 图 3-3， 大 家 就 会 对 MapReduce 的 执行 过 程 有 更 深刻 的 了 
解 了 。 


除 此 之 外 ， 还 有 两 种 情况 需要 注意 : 


1) MapReduce 在 执行 过 程 中 往往 不 止 一 个 Reduce Task, Reduce 
Task 的 数量 是 可 以 程序 指定 的 。 当 存在 多 个 Reduce Task 时 ， 每 个 
Reduce 会 搜集 一 个 或 多 个 key 值 。 需 要 注意 的 是 ， 当 出 现 多 个 Reduce 


Task 时 ， 每 个 Reduce Task 都 会 生成 一 个 输出 文件 。 


2) 另外 ， 没 有 Reduce 任 务 的 时 候 ， 系 统 会 直接 将 Map 的 输出 结果 
作为 最 终结 果 ， 同 时 Map Task 的 数量 可 以 看 做 是 Reduce Task 的 数量 ， 
即 有 多 少 个 Map Task 束 有 多 少 个 输出 文件 。 


3.3. ”MapReduce 任 务 的 优化 


相信 每 个 程序 员 在 编程 时 都 会 问 目 己 两 个 问题 “我 如 何 完 成 这 个 任 
务 ”， 以 及 “怎么 能 让 程序 运行 得 更 快 "。 同 样 ，MapReduce 计 算 模 型 的 
多 次 优化 也 是 为 了 更 好 地 解答 这 两 个 问题 。 


MapReduce 计 算 模 型 的 优化 涉及 了 方方面面 的 内 容 ， 但 是 主要 集 
中 在 两 个 方面 : 一 是 计算 性 能 方面 的 优化 ;二 是 IO 操作 方面 的 优化 。 
这 其 中 ， 义 包含 六 个 方面 的 内 容 。 


1. 任 务 调 


iq 


任务 调度 是 Hadoop 中 非常 重要 的 一 环 ， 这 个 优化 又 涉及 两 个 方面 
的 内 容 。 计 算 方面 : Hadoop 总 会 优先 将 任务 分 配给 空闲 的 机 器 ， 使 所 
有 的 任务 能 公平 地 分 享 系统 资源 。LIO 方 面 : Hadoop 会 尽量 将 Map 任 务 
分 配给 InputSplit 所 在 的 机 器 ， 以 减少 网 络 IO 的 消耗 。 


2. 数 据 预 处 理 与 InputSplit 的 大 小 


MapReduce 任 务 擅长 处 理 少量 的 大 数据 ， 而 在 处 理 大 量 的 小 数据 
时 ，MapReduce 的 性 能 就 会 进 色 很 多 。 因 此 在 所 交 MapReduce 任 务 前 
可 以 先 对 数据 进行 一 次 预 处 理 ， 将 数据 合并 以 提高 MapReduce 任 务 的 
执行 效率 ， 这 个 办 法 往往 很 有 效 。 如 有 宁 这 还 不 行 ， 可 以 参考 Map 任 务 


IST AY TA], 3 —SMapte ss Re BS 77 LA aa DAZE aT BS 
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时 间 在 一 分 钟 左右 比较 合适 ， 可 以 通过 设置 Map 的 输入 数据 大 小 来 调 


一 /一 


节 Map 的 运行 时 间 。 在 FileInputFormat 中 (除了 


CombineFileInputFormat) ，Hadoop 会 在 处 理 每 个 Block 后 将 其 作为 一 
个 InputSplit， 因 此 合理 地 设置 block 抉 大 小 是 很 重要 的 调和 方式 。 除 此 
之 外 ， 也 可 以 通过 合理 地 设置 Map 任 务 的 数量 来 调节 Map 任 务 的 数据 
输入 。 


3.Map 和 Reduce 任 务 的 数量 


合理 地 设置 Map 任 务 与 Reduce 任 务 的 数量 对 提高 MapReduce 任 务 
的 效率 是 非常 重要 的 。 默 认 的 设置 往往 不 能 很 好 地 体现 出 MapReduce 
任务 的 需求 ， 不 过 ， 设 置 它 们 的 数量 也 要 有 一 定 的 实践 经 验 。 


首先 要 定义 两 个 概念 一 Map/Reduce 任 务 构 。Map/Reduce 任 务 槽 就 
是 这 个 集群 能 够 同时 运行 的 Map/Reduce 任 务 的 最 大 数量 。 比 如 ， 在 一 
个 具有 1200 台 机 器 的 集群 中 ， 设 置 每 台 机 器 最 多 可 以 同时 运行 10 个 
Map 任 务 ，5 个 Reduce 任 务 。 那 么 这 个 集群 的 Map 任 务 柳 束 是 12000， 
Reduce 任 务 槽 是 6000。 任 务 槽 可 以 帮助 对 任务 调度 进行 设置 。 


设置 MapReduce 任 务 的 Map 数 量 主要 参考 的 是 Map 的 运行 时 间 ， 设 
置 Reduce 任 务 的 数量 就 只 需要 参考 任务 槽 的 设置 即 可 。 一 般 来 说 ， 


Reduce 任 务 的 数量 应 该 是 Reduce 任 务 槽 的 0.95 倍 或 是 1.75 倍 ， 这 是 基于 
不 同 的 考虑 来 决定 的 。 当 Reduce 任 务 的 数量 是 任务 槽 的 0.95 倍 时 ， 如 
果 一 个 Reduce 任 务 失败 ，Hadoop 可 以 很 快 地 找到 一 台 空 用 的 机 絮 重 新 
执行 这 个 任务 。 当 Reduce 任 务 的 数量 是 任务 槽 的 1.75 倍 时 ， 执 行 速度 
快 的 机 器 可 以 获得 更 多 的 Reduce 任 务 ， 因 此 可 以 使 负载 更 加 均衡 ， 以 
提高 任务 的 处 理 速度 。 


4.Combine K 2X 


Combine žite A TAM AIAG A Na ° TEA LETRA ULF, Mapi 
数 产 生 的 中 间 数 据 会 有 很 多 是 重复 的 ， 比 如 在 一 个 简单 的 WordCount 
程序 中 ， 因 为 词 频 是 接近 与 一 个 zipf 分 布 的 ， 每 个 Map 任 务 可 能 会 产生 
成 和 十 上 万 个 <the，1>> 记录 ， 帮 将 这 些 记录 一 一 传送 给 Reduce 任 务 是 
很 耗 时 的 。 所 以 ，MapReduce 框 染 运 行 用 户 写 的 combine 芳 数 用 于 本 地 
合并 ， 这 会 大 大 减少 网 络 1/O 操 作 的 消耗 。 此 时 就 可 以 利用 combine 函 
数 先 计 算出 在 这 个 Block 中 单词 he 的 个 数 。 合 理 地 设计 combine 函 数 会 
有 效 地 减少 网 络 传输 的 数据 量 ， 提 高 MapReduce 的 效率 。 


在 MapReduce 程 序 中 使 用 combine 很 简单 ， 只 需 在 程序 中 添加 如 下 
内 
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job.setCombinerClass (combine.class) ; 


在 WordCount 程 序 中 ， 可 以 指定 Reduce 类 为 combine 函 数 ， 具 体 如 
下 : 


job.setCombinerClass (Reduce.class) ; 


5. 压 缩 


编写 MapReduce 程 序 时 ， 可 以 选择 对 Map 的 输出 和 最 终 的 输出 结 
果 进 行 压缩 (同时 可 以 选择 压缩 方式 ) 。 在 一 些 情况 下 ，Map 的 中 间 
输出 可 能 会 很 大 ， 对 其 进行 压缩 可 以 有 效 地 减少 网 络 上 的 数据 传输 
° 对 最 终结 采 的 压缩 虽然 会 减少 数据 写 HDFS 的 时 间 ， 但 古 也 会 对 
取 产 生 一 定 的 影响 ， 因 此 要 根据 实际 情况 来 选择 〈 第 7 章 中 提供 了 一 
小 实验 来 验证 压缩 的 效果 ) 


val 


» 
` 
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6. 目 定义 comparator 


在 Hadoop 中 ， 可 以 目 定 义 数据 类 型 以 实现 更 复杂 的 目的 ， 比 如 ， 
当 读 者 想 实 现 k-means 算 法 〈 一 个 基础 的 聚 类 算法 ) 时 可 以 定义 k 个 整 
数 的 集合 。 自 定义 Hadoop 数 据 类 型 时 ， 推 荐 自 定 义 comparator 来 实现 
数据 的 二 进 制 比较 ， 这 样 可 以 省 去 数据 序列 化 和 反 序 列 化 的 时 间 ， 提 
高 程序 的 运行 效率 (具体 会 在 第 7 章 中 讲解 ) 


3.4 Hadoopiit 


Hadoop te [—TSAPI, StF ES EIA S 5 Map ex 
数 或 Reduce 函 数 。Hadoop 流 的 关键 是 ， 它 使 用 UNIX 标 准 流 作 为 程序 
与 Hadoop 之 间 的 接口 。 因 此 ， 任 何 程序 只 要 可 以 从 标准 输入 流 中 读 取 
数据 并 且 可 以 写 入 数据 到 标准 输出 流 ， 那 么 就 可 以 通过 Hadoop 流 使 用 
其 他 语言 编写 MapReduce 程 序 的 Map 函 数 或 Reduce 芳 数 。 


举 个 最 简单 的 例子 (本 例 的 运行 环境 :Ubuntu, Hadoop-0.20.2) : 


bin/hadoop jar contrib/streaming/hadoop-0.20.2-streaming.jar- 
input input-output 
output-mapper/bin/cat-reducer usr/bin/wc 


从 这 个 例子 中 可 以 看 到 ，Hadoop 流 引入 的 包 是 hadoop-0.20.2- 
streaming.jar， 并 且 具 有 如 下 命令 : 


-input 指 明 输 入 文件 路 径 
-output 指 明 输 出 文件 路 径 
-mapper 指 定 map 芳 数 
-reducer##e reduce aay 


Hadoop 流 的 操作 还 有 其 他 参数 ， 后 面 会 一 一 列 出 。 


3.4.1 ”Hadoop 尝 的 工作 原理 


先 来 看 Hadoop 流 的 工作 原理 。 在 上 例 中 ，Map 和 Reduce 都 症 Linux 
内 的 可 执行 文件 ， 更 重要 的 是 ， 它 们 接受 的 都 是 标准 输入 (stdin) ， 
输出 的 都 是 标准 输出 (stdout) 。 如 果 大 家 熟悉 Linux， 那 么 对 它们 一 
定 不 会 卫生 。 执 行 上 一 节 中 的 示例 程序 的 过 程 如 下 所 示 。 


程序 的 输入 与 WordCount 程 序 是 一 样 的 ， 具 体 如 下 : 


file01: 

hello world bye world 

file02 

hello hadoop bye hadoop 

输入 命令 : 

bin/hadoop jar contrib/streaming/hadoop-0.20.2-streaming. jar- 
input input-output 

output -mapper/bin/cat -reducer/usr/bin/wc 
MEIN: 

packageJobJar: [/root/tmp/hadoop-unjar 7103575849190765740/ | 
[]/tmp/ 

streamjob2314757737747407133.jar tmpDir=null 

11/01/23 02: 07: 36 INFO mapred.FileInputFormat: Total input 
paths to process: 2 

11/01/23 02: 07: 37 INFO streaming.StreamJob: getLocalDirs () : 
[/root/tmp/mapred/local] 

11/01/23 02: 07: 37 INFO streaming.StreamJob: Running job: 
job_201101111819 0020 

11/01/23 02: 07: 37 INFO streaming.StreamJob: To kill this job, 
run: 

11/01/23 02: 07: 37 INFO 
streaming.StreamJob: /root/hadoop/bin/hadoop job-Dmapred. 

job.tracker=localhost: 9001-kill job_201101111819 0020 

11/01/23 02: 07: 37 INFO streaming.StreamJob: Tracking URL: 
http: //localhost: 50030/ 

jobdetails.jsp?jobid=job_201101111819 0020 

11/01/23 02: 07: 38 INFO streaming.StreamJob: map O%reduce 0% 

11/01/23 02: 07: 47 INFO streaming.StreamJob: map 100%reduce 0% 

11/01/23 02: 07: 59 INFO streaming.StreamJob: map 100%reduce 100% 

11/01/23 02: 08: 02 INFO streaming.StreamJob: Job complete: 
job_201101111819 0020 

11/01/23 02: 08: 02 INFO streaming.StreamJob: Output: output 
程序 的 输出 是 : 
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个 结 采 是 正确 的 。 


Hadoop 流 的 工作 原理 并 不 复杂 ， 其 中 Map 的 工作 原理 如 图 3-4 所 示 
(Reduce 与 其 相同 ) 。 


3-4 Hadoop 流 的 Map 流 程 图 


当 一 个 可 执行 文件 作为 Mapper 时 ， 每 一 个 Map 任 务 会 以 一 个 独立 
的 进程 启动 这 个 可 执行 文件 ， 然 后 在 Map 任 务 运 行 时 ， 会 把 输入 切 分 
成 行 提 供给 可 执行 文件 ， 并 作为 它 的 标准 输入 (stdin) 内 容 。 当 可 执 
行文 件 运行 出 结果 时 ，Map 从 标准 输出 (stdout) 中 收集 数据 ， 并 将 其 
转化 为 <key, value> 对， 作为 Map 的 输出 。 


Reduce 与 Map 相 同 ， 如 果 可 执行 文件 做 Reducer 时 ，Reduce 任 务 会 
启动 这 个 可 执行 文件 ， 并 且 将 <key, value > 对 转化 为 行 作为 这 个 可 执 
行文 件 的 标准 输入 (stdin) 。 然 后 Reduce 会 收集 这 个 可 执行 文件 的 标 
准 输 出 (stdout) 的 内 容 。 并 把 每 一 行 转化 为 <key value> 对 ， 作 为 
Reduce 的 输出 。 


Map 与 Reduce 将 输出 转化 为 <key, value > 对 的 默认 方法 是 : 将 每 
行 的 第 一 个 tab 符 号 HRA) 之 前 的 内 容 作为 key， 之 后 的 内 容 作为 
value。 如 采 没 有 tab 符 号 ， 那 么 这 一 行 的 所 有 内 容 会 作为 key， 而 value 
值 为 null。 当 然 这 是 可 以 更 改 的 。 


值得 一 提 的 是 ， 可 以 使 用 Java 类 作为 Map， 而 用 一 个 可 执行 程序 
作为 Reduce; 或 使 用 Java 类 作为 Reduce， 而 用 可 执行 程序 作为 Map。 
例如 : 


/bin/hadoop jar contrib/streaming/hadoop-0.20.2-streaming. jar 
-input myInputDirs-output myOutputDir-mapper 
org.apache.hadoop.mapred.1lib.IdentityMapper -reducer/bin/wc 


3.4.2 ”Hadoop 流 的 命令 


Hadoop 流 提供 自己 的 流 命令 选项 及 一 个 通用 的 命令 选项 ， 用 于 设 
置 Hadoop 流 任务 。 首 先 介绍 一 下 流 命令 。 


1.Hadoop 流 命令 选项 
Hadoop 流 命令 具体 内 容 如 表 3-1 所 示 。 


表 3-1 Hadoop 流 命 令 
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表 3-1 所 示 的 Hadoop 流 命令 中 ， 必 选 的 4 个 很 好 理解 ， 分 别 用 于 指 
定 输入 /输出 文件 的 位 置 及 Map/Reduce 函 数 。 在 其 他 的 可 选 命令 中 ， 这 
里 我 们 只 解释 第 用 的 几 个 。 


-file 


-file 指 令 用 于 将 文件 加 入 到 Hadoop 的 Job 中 。 上 面 的 例子 中 ，cat 和 
wc 都 是 Linux 系 统 中 的 命令 ， 而 在 Hadoop 流 的 使 用 中 ， 往 往 需 要 使 用 
自己 写 的 文件 〈 作 为 Map 函 数 或 Reduce 函 数 ) 。 一 般 而 言 ， 这 些 文 件 
是 Hadoop 集 群 中 的 机 絮 上 没有 的 ， 这 时 就 需要 使 用 Hadoop 流 中 的 -file 
命令 将 这 个 可 执行 文件 加 入 到 Hadoop 的 Job 中 。 

-combiner 

这 个 命令 用 来 加 入 combiner 程 序 。 


-inputformat 和 -outputformat 


这 两 个 命令 用 来 设置 输入 输出 文件 的 处 理 方法 ， 这 两 个 命令 后 面 
的 参数 必须 是 Java 类 。 


2.Hadoop 流 通用 的 命令 选项 


Hadoop 流 的 通用 命令 用 来 配置 Hadoop 流 的 Job。 需 要 注意 的 是 ， 
如 果 使 用 这 部 分 配置 ， 驶 必须 将 其 置 于 流 命令 配置 之 前 ， 否 则 命令 会 
失败 。 这 里 简要 列 出 命令 列表 (如 表 3-2 所 示 ) ， 供 大 家 参考 。 


表 3-2 Hadoop 流 的 Job 设置 命令 


3.4.3 ”两 个 例子 


从 上 面 的 内 容 可 以 知道 ，Hadoop 流 的 API 是 一 个 扩展 性 非常 强 的 
框架 ， 它 与 程序 相连 的 部 分 只 有 数 据 ， 因 此 可 以 接受 任何 适用 于 UNIX 
标准 输入 /输出 的 脚本 语言 ， 比 如 Bash、PHP、Ruby、Python 等 。 


下 面 举 两 个 非常 简单 的 例子 来 进一步 说 明 它 的 特性 。 
1.Bash 


MapReduce 框 架 是 一 个 非常 适合 在 大 规模 的 非 结构 化 数据 中 查找 
数据 的 编程 模型 ，grep 束 古 这 种 类 型 的 一 个 例子 。 


在 Linux 中 ，grep 命 令 用 来 在 一 个 或 多 个 文件 中 查找 某 个 字符 模式 
(这 个 字符 模式 可 以 代表 字符 串 ， 多 用 正则 表达 式 表示 ) ° 


下 面 竹 试 在 如 下 的 数据 中 查找 带 有 Hadoop 子 符 串 的 行 ， 如 下 所 


输入 文件 为 : 


file01: 

hello world bye world 
file02: 

hello hadoop bye hadoop 


reduce 文 件 为 : 


reduce. sh: 

grep hadoop 

输入 命令 为 : 

bin/hadoop jar contrib/streaming/hadoop-0.20.2-streaming. jar- 
input input-output 

output -mapper/bin/cat-reducer~/Desktop/test/reducer.sh-file 
~/Desktop/test/ 

reducer.sh 
结果 为 : 
hello hadoop bye hadoop 


显然 ， 这 个 结果 是 正确 的 。 
2.Python 


对 于 Python 来 说 ， 情 况 有 些 特殊 。 因 为 Python 是 可 以 编译 为 JAR 包 
的 ， 如 有 果 将 程序 编译 为 JAR 包 ， 那 么 束 可 以 采用 运行 JAR 包 的 方式 来 


不 过 ， 同 样 也 可 以 用 流 的 方式 运行 Python 程序 。 请 看 如 下 代码 : 


Reduce .py 

#! /usr/bin/python 

import sys; 

def generateLongCountToken (id) : 
return"LongValueSum: "+id+"\t"+"1" 
def main (argv) : 
line=sys.stdin.readline () ; 

try: 

while line: 

line=line[: -1]; 

fields=line.split ("\t") ; 

print generateLongCountToken (fields[0]) ; 
line=sys.stdin.readline () ; 


except"end of file": 
return None 
if__name__=="__ main 
main (sys.argv) 


使 用 如 下 命令 来 运行 : 


bin/hadoop jar contrib/streaming/hadoop-0.20.2-streaming.jar- 
input input-output 
pyoutput-mapper reduce.py-reducer aggregate-file reduce.py 
注意 其 中 的 aggregate 古 Hadoop 提 供 的 一 个 包 ， 它 提供 一 个 Reduce 
玉 数 和 一 个 combine 了 范 数 。 这 个 函数 实现 一 些 简 单 的 类 似 求 和 、 取 最 大 
值 最 小 值 等 的 功能 。 


3.5 Hadoop Pipes 


Hadoop Pipes 提 供 了 一 个 在 Hadoop 上 运行 C++ 程序 的 方法 。 与 流 
不 同 的 是 ， 流 使 用 的 是 标准 输入 输出 作为 可 执行 程序 与 Hadoop 相 天 进 
程 则 通信 的 工具 ， 而 Pipes 使 用 的 是 Sockets。 先 看 一 个 示例 程序 


wordcount.cpp: 


#include"hadoop/Pipes.hh" 
#include"hadoop/TemplateFactory.hh" 
#include"hadoop/StringUtils.hh" 

const std: string WORDCOUNT="WORDCOUNT"; 

const std: string INPUT_WORDS="INPUT_WORDS"; 

const std: string OUTPUT_WORDS="OUTPUT_WORDS"; 

class WordCountMap: public HadoopPipes: Mapper{ 
public: 

HadoopPipes: TaskContext: Counter *inputWords; 
WordCountMap (HadoopPipes: TaskContext&context) { 
inputWords=context.getCounter (WORDCOUNT, INPUT_WORDS) ; 
} 

void map (HadoopPipes: MapContext&context) { 

std: vector <std: string>words= 

HadoopUtils: splitString (context.getInputValue () , "") ; 
for (unsigned int i=0; i<words.size () ; ++i) { 
context.emit (words[i], "1") ; 

} 

context.incrementCounter (inputWords, words.size () ) ; 
} 

}; 

class WordCountReduce: public HadoopPipes: Reducer{ 
public: 

HadoopPipes: TaskContext: Counter *outputwWords; 


WordCountReduce (HadoopPipes: TaskContext&context) { 
outputWords=context.getCounter (WORDCOUNT, OUTPUT_WORDS) ; 
} 

void reduce (HadoopPipes: ReduceContext&context) { 

int sum=0; 

while (context.nextValue () ) { 

sum+=HadoopUtils: toInt (context.getInputValue () ) ; 


} 
context.emit (context.getInputKey () , HadoopUtils: toString 


(sum) ) ; 
context.incrementCounter (outputWords, 1) ; 


} 

}; 

int main (int argc, char*argv[]) { 

return HadoopPipes: runTask (HadoopPipes: TemplateFactory< 
WordCountMap, 

WordCountReduce> () ) ; 


} 


这 个 程序 连接 的 是 一 个 C++ 库 ， 结 构 类 似 于 Java 编 写 的 程序 。 如 
新 版 API 一 样 ， 这 个 程序 使 用 context 方 法 读 入 和 收集 <key, value > 
对 。 在 使 用 时 要 重 写 HadoopPipes 名 字 衬 间 下 的 Mapper 和 Reducer 画 
数 ， 并 用 context.emit () 方法 输出 <key, value> X} ° main KÆ M H 
程序 的 入 口 ， 它 调用 HadoopPipes: runTask 方 法 ， 这 个 方法 由 一 个 
TemplateFactory 参 数 来 创建 Map 和 Reduce 实 例 ， 也 可 以 重 载 factory 设 置 


combiner () ` partitioner () ` record reader ` record writer ° 


接 下 来 ， 编 译 这 个 程序 。 这 个 编译 命令 需要 用 到 g++， 读 者 可 以 
使 用 apt 目 动 安装 这 个 程序 。g++ 的 命令 格式 如 下 所 示 : 


apt-get install g++ 


然后 建立 文件 Makerfile， 如 下 所 示 : 


HADOOP_INSTALL=" 你 的 hadoop 安 装 文件 夹 " 
PLATFORM=Linux-i386-32 (如 果 是 AMD 的 CPU， 请 使 用 Linux-amd64-64) 
CC=g++ 

CPPFLAGS=-m32-I$ (HADOOP_INSTALL) /c++/$ (PLATFORM) /include 
wordcount: wordcount.cpp 


$ (CC) $ (CPPFLAGS) $<-Wall-L$ (HADOOP_INSTALL) /ct++/$ 
(PLATFORM) /lib-1lhadooppipes 

- lhadooputils-lpthread-g-02-o$@ 
注意 在 $ (CC) 前 有 一 个 <tab > 符号 ， 这 个 分 隔 符 是 很 关键 的 。 


在 当前 目录 下 建立 一 个 WordCount 可 执行 文件 。 


接着 ， 上 传 可 执行 文件 到 HDFS 上 ， 这 是 为 了 TaskTracker 能 够 获得 
这 个 可 执行 文件 。 这 里 上 传 到 bin 文 件 夹 内 。 


~/hadoop/bin/hadoop fs-mkdir bin 
~/hadoop/bin/hadoop dfs-put wordcount bin 


然后 ， 束 可 以 运行 这 个 MapReduce 程 序 了 ， 可 以 采用 两 种 配置 方 
式 运 行 这 个 程序 。 一 种 方式 是 直接 在 命令 中 运行 指定 配置 ， 如 下 所 


~/hadoop/bin/hadoop pipes\ 

-D hadoop.pipes. java. recordreader=true\ 
-D hadoop.pipes. java. recordwriter=true\ 
-input input\ 

-output Coutput\ 

-program bin/wordcount 


男 一 种 方式 是 预先 将 配置 写 入 配置 文件 中 ， 如 下 所 示 : 


<?xml version="1.0"?> 
<configuration> 

<property> 

//Set the binary path on DFS 

< name > hadoop.pipes.executable< /name > 
<value >bin/wordcount </value> 
</property> 

<property> 


< name > hadoop.pipes. java.recordreader < /name > 
<value >true</value > 

</property> 

<property> 

< name > hadoop.pipes. java.recordwriter </name> 
<value >true</value > 

</property> 

</configuration> 


然后 通过 如 下 命令 运行 这 个 程序 : 


~/hadoop/bin/hadoop pipes-conf word.xml-input input-output 
output 


将 参数 hadoop.pipes.executable 和 hadoop.pipes.java.recordreader 设 置 
为 true 表 示 使 用 Hadoop 默 认 的 输入 输出 方式 ( 即 Java 的 ) 。 同样 的 ， 也 
可 以 设置 一 个 Java 语 言 编写 的 Mapper 函 数 、Reducer 函 数 、combiner 函 
数 和 partitioner 函 数 。 实 际 上 ， 在 任何 一 个 作业 中 ， 都 可 以 混用 Java 类 
和 C++ 类 。 


3.6 本章 小 结 


本 章 主要 介绍 了 MapReduce 的 计算 模型 ， 其 中 的 关键 内 容 是 一 个 
流程 和 四 个 方法 。 一 个 流程 指 的 是 数据 流程 ， 输 入 数据 到 <k1，v1 
>、<kl，v1> 到 <k2，v2>、<k2，v2> 到 <k3，v3>、<k3，v3 
> 到 输出 数据 。 四 个 方法 就 是 这 个 数据 转换 过 程 中 使 用 的 方法 (分 别 
是 InputFormat、Map、Reduce、QOutputFormat) ， 以 及 其 对 应 的 转换 过 
程 。 除 此 之 外 ， 还 介绍 了 MapReduce 编 程 框架 的 几 个 优化 方法 ， 以 及 
Hadoop 流 和 Hadoop Pipes， 后 者 是 在 Hadoop 中 使 用 脚本 文件 及 C++ 编 
写 MapReduce 程 序 的 方法 。 


第 4 章 ”开发 MapReduce 应 用 程序 
本 章 内 容 
系统 参数 的 配置 
配置 开发 环境 
编写 MapReduce 程 序 
本 地 测试 
运行 MapReduce 程 序 
网 络 用 户 界面 
性 能 调 优 
MapReduce 工 作 流 
本 章 小 结 


在 前 面 的 章节 中 ， 已 经 介绍 了 MapReduce 模 型 。 在 本 章 中 ， 将 介 
绍 如 何在 Hadoop 中 开发 MapReduce 的 应 用 程序 。 在 编写 MapReduce 程 
序 之 前 ， 需 要 安装 和 配置 开发 环境 ， 因 此 ， 痢 先 要 学 习 如 何 进行 配 
= o 
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数 的 配置 


1. 通 过 API 对 相关 组 件 的 参数 进行 配置 


Hadoop 有 很 多 自己 的 组 件 (例如 Hbase 和 Chukwa 等 ) ， 每 一 种 组 
件 都 可 以 实现 不 同 的 功能 ， 并 起 着 不 同 的 作用 ， 通 过 多 种 组 件 的 配合 
使 用 ，Hadoop 束 能 够 实现 非常 强大 的 功能 。 这 些 可 以 通过 Hadoop 的 
API 对 相关 参数 进行 配置 来 实现 。 


先 简 单 地 介绍 一 下 APIW1， 它 被 分 成 了 以 下 几 个 部 分 (也 就 是 几 
个 不 同 的 包 ) 


org. apache.hadoop.conf: 定义 了 系统 参数 的 配置 文件 处 理 API; 
org. apache.hadoop.fs: 定义 了 抽象 的 文件 系统 API; 


org. apache.hadoop.dfs: Hadoop 分 布 式 文件 系统 (HDFS) 模块 的 
实现 ; 
org. apache.hadoop.mapred: Hadoop 分 布 式 计算 系统 


(MapReduce) 模块 的 实现 ， 包 括 任务 的 分 发 调度 等 ; 


org. apache.hadoop.ipc: 用 在 网 络 服务 端 和 客户 端的 工具 ， 封 装 了 
网 络 异步 /0O 的 基础 模块 ; 


org. apache.hadoop.io: 定义 了 通用 的 IO API， 用 于 针对 网 络 、 数 
据 库 、 文 件 等 数据 对 象 进行 读 写 操作 等 。 


在 此 我 们 需要 用 到 org.apache.hadoop.conf， 用 它 来 定义 系统 参数 
的 配置 。Configurations 类 由 源 来 设置 ， 每 个 源 包含 以 XML 形式 出 现 的 
一 系列 属性 / 值 对 。 每 个 源 以 一 个 字符 串 或 一 个 路 径 来 命名 。 如 果 是 以 
字符 串 命名 ， 则 通过 类 路 径 检 查 该 字符 串 代表 的 路 径 是 否 存 在 ， 如 果 
是 以 路 径 命 名 的 ， 则 直接 通过 本 地 文件 系统 进行 检查 ， 而 不 用 类 路 


Ze 
下 面 举 一 个 配置 文件 的 例子 。 


configuration-default. xml 


<?xml version="1.0"?> 

<configuration> 

<property> 

< name > hadoop.tmp.dir </name > 

<value >/tmp/hadoop-${usr.name}</value > 

<description>A base for other temporary directories. 
</description> 

</property> 

<property> 

<name>io.file.buffer.size</name> 

<value > 4096 </value > 

<description>the size of buffer for use in sequence file. 
</description> 

</property> 

<property> 

<name> height < /name > 

<value >tall</value> 

<final>true</final> 

</property> 

</configuration> 


这 个 文件 中 的 信息 可 以 通过 以 下 的 方式 进行 抽取 : 


Configuration conf=new Configuration () ; 

Conf.addResource ("configuration-default.xml") ; 

aasertThat (conf.get ("hadoop.tmp.dir") , is 
("/tmp/hadoop-${usr.name}") ) ; 

assertThat (conf.get ("io.file.buffer.size") , is ("4096") ) ; 

assertThat (conf.get ("height") , is ("tall") ) ; 


2. 多 个 配置 文件 的 整合 


假设 还 有 另外 一 个 配置 文件 configuration-site.xml， 其 中 具体 代码 
细 世 如 下 : 


configuration-site. Xml 


<?xml version="1.0"?> 

<configuration> 

<property> 

<name>io.file.buffer.size</name> 

<value > 5000</value > 

<description>the size of buffer for use in sequence file. 
</description> 

</property> 

<property> 

< name > height < /name > 

<value>short </value> 

<final>true</final> 

</property> 

</configuration> 


使 用 两 个 资源 configuation-default,xml 和 configuration-site.xml 来 定 
义 配 置 。 将 资源 按 顺序 添加 到 Configuration 之 中 ， 代 码 如 下 : 


Configuration conf=new Configuration () ; 
conf .addResource ("configuration-default.xml") ; 
conf.addResource ("|configuration-site.xml") ; 


现在 不 同 资源 中 有 了 相同 属性 ， 但 是 这 些 属性 的 取 值 却 不 一 样 。 
这 时 这 些 属 性 的 取 值 应 该 如 何 确定 呢 ? 可 以 遵循 这 样 一 个 原则 : 后 添 
加 进来 的 属性 取 值 覆盖 掉 前 面 所 添加 资源 中 的 属性 取 值 。 因 此 ， 此 处 
的 属性 io.file.buffer.size 取 值 应 该 是 5000 而 不 是 先前 的 4096， 即 : 


assertThat (conf.get ("io.file.buffer.size") , is ("5000") ) ; 


但 是 ， 有 一 个 特例 ， 被 标记 为 final 的 属性 不 能 被 后 面 定义 的 属性 
窗 盖 。Configuration-default.xml 中 的 属性 height 人 被 标记 为 final， 因 此 在 
configuration-site.xml 中 重 写 height 并 不 会 成 功 ， 它 依然 会 从 


configuration-default.xml 中 取 值 : 


assertThat (conf.get ("height") , is ("tall") ) ; 


重 写 标记 为 final 的 属性 通常 会 报告 配置 错误 ， 同 时 会 有 警告 信息 
被 记录 下 来 以 便 为 诊断 所 用 。 管 理 员 将 守护 进程 地 址 文件 之 中 的 属性 
标记 为 final， 可 防止 用 户 在 客户 端 配置 文件 中 或 作业 提交 参数 中 改变 
其 取 值 。 


Hadoop 默 认 使 用 两 个 源 进 行 配置 ， 并 按 顺 序 加 载 core-default,xml 
和 core-site.xml。 在 实际 应 用 中 可 能 会 添加 其 他 的 源 ， 应 按照 它们 添加 


的 顺序 进行 加 载 。 其 中 core-default.xml 用 于 定义 系统 默认 的 属性 ， 
core-site.xml 用 于 定义 在 特定 的 地 方 重 写 。 


[1] 可 以 参考 http: //hadoop.apache.org/common/docs/current/api ° 


4.2 配置 开发 环境 


首先 下 载 准 备 使 用 的 Hadoop 版 本 ， 然 后 将 其 解压 到 用 于 开发 的 主 
机 上 (详细 过 程 见 附录 B) 。 接 下 来 ， 在 集成 开发 环境 中 创建 一 个 新 
的 工程 ， 然 后 将 解压 后 的 文件 夹 根 目录 下 的 JAR 文 件 和 lib 目 录 之 下 的 
JAR 文 件 加 入 到 classpath 中 。 之 后 就 可 以 编译 Hadoop 程 序 ， 并 且 可 以 
在 集成 开发 环境 中 以 本 地 模式 运行 。 


Hadoop 有 三 种 不 同 的 运行 方式 : 单机 模式 、 伪 分 布 模式 、 完 全 分 
布 模式 。 三 种 不 同 的 运行 方式 各 有 各 的 好 处 与 不 足 之 处 : 单机 模式 的 
安装 与 配置 比较 简单 ， 运 行 在 本 地 文件 系统 上 ， 便 于 程序 的 调试 ， 可 
及 时 查看 程序 运行 的 效果 ， 但 是 当 数据 量 比较 大 时 运行 的 速度 会 比较 
慢 ， 并 且 没 有 体现 出 Hadoop 分 布 式 的 优点 ; 伪 分 布 模式 同样 是 在 本 地 
文件 系统 上 运行 ， 与 单机 模式 的 不 同 之 处 在 于 它 运 行 的 文件 系统 大 
HDFS， 这 种 模式 的 好 处 是 能 够 模仿 完全 分 布 模式 ， 看 到 一 些 分 布 式 
处 理 的 效果 ; 完全 分 布 模式 则 运行 在 多 台 机 融 的 HDFS 之 上 ， 完 完全 
全 地 体现 出 了 分 布 式 的 优点 ， 但 是 在 调试 程序 方面 会 比较 厅 烦 。 


在 实际 运用 中 ， 可 以 结合 这 三 种 不 同 模式 的 优点 ， 比 如 ， 编 写 和 
调试 程序 在 单机 模式 和 伪 分 布 模式 上 进行 ， 而 实际 处 理 大 数据 则 在 完 
全 分 布 模式 下 进行 。 这 样 整 会 涉及 三 种 不 同 模式 的 配置 与 管理 ， 相 关 
配置 和 管理 会 在 相应 的 章节 重点 讲解 。 


4.3 ”编写 MapReduce 程 序 


下 面 将 通过 一 个 计算 学 生平 均 成 绩 的 例子 来 讲解 开发 MapReduce 
程序 的 流程 。 程 序 主要 包括 两 部 分 内 容 : Map 部 分 和 Reduce 部 分 ， 分 
别 实 现 Map 和 Reduce 的 功能 。 


4.3.1 Map 处 理 


Map 处 理 的 是 一 个 纯 文 本 文件 ， 此 文件 中 存放 的 数据 是 每 一 行 表 
示 一 个 学 生 的 姓名 和 他 相应 的 一 科 成 绩 ， 如 果 有 多 门 学 科 ， 则 每 个 学 
生 束 存在 多 行 数据 。 代 码 如 下 所 示 : 


public static class Map 

extends Mapper<Longwritable, Text, Text, IntWritable>{ 

public void map (LongWritable key, Text value, Context context) 

throws IOException, InterruptedException{ 

String line=value.toString () ; // 将 输入 的 纯 文 本 文件 的 数据 转化 成 String 

System.out.println (line) ; // 为 了 便于 程序 的 调试 ， 输 出 读 入 的 内 容 

// 将 输入 的 数据 先 按 行 进行 分 割 

StringTokenizer tokenizerArticle=new StringTokenizer 
(line, "\n") ; 

// 分 别 对 每 一 行进 行 处 理 

while (tokenizerArticle.hasMoreTokens () ) { 

// 每 行 按 空格 划分 

StringTokenizer tokenizerLine=new StringTokenizer 
(tokenizerArticle.nextToken () ) ; 

String strName=tokenizerLine.nextToken () ; // 学 生 姓 名 部 分 

String strScore=tokenizerLine.nextToken () ; // 成 绩 部 分 

Text name=new Text (strName) ; // 学 生 姓 名 

int scoreInt=Integer.parseInt (strScore) ; // 学 生成 绩 score of 
student 

context.write (name, new IntWritable (scoreInt) ) ; // 输 出 姓名 和 成 绩 


Wee 


通过 数据 集 进行 测试 ， 结 果 显 示 完 全 可 以 将 文件 中 的 姓名 和 他 相 
应 的 成 绩 提取 出 来 。 需 要 解释 的 是 : Mapper 处 理 的 数据 是 由 
InputFormat 分 解 过 的 数据 集 ， 其 中 InputFormat 的 作用 是 将 数据 集 切割 
成 小 数据 集 InputSplit， 每 一 个 InputSplit 将 由 一 个 Mapper 负 责 处 理 。 此 


外 ，InputFormat 中 还 提供 了 一 个 RecordReader 的 实现 ， 并 将 一 个 


InputSplit 解 析 成 <key, value > 对 提供 给 Map 函 数 。InputFormat 的 默认 
值 是 TextImputFormat， 它 针对 文本 文件 ， 按 行将 文本 切割 成 
InputSplit， 并 用 LineRecordReader 将 InputSplit 解 析 成 < key, value > 
对 ，key 是 行 在 文本 中 的 位 置 ，value 是 文件 中 的 一 行 。 


本 程序 中 的 InputFormat 使 用 的 是 默认 值 TextInputFormat， 因 此 结 
合 上 述 程 序 的 注释 部 分 不 难 理解 整个 程序 的 处 理 流程 和 正确 性 。 


4.3.2 ” Reduce 处 理 


Map 处 理 的 结果 会 通过 partition 分 发 到 Reducer Reducer 做 完 Reduce 
操作 后 ， 将 通过 OutputFormat 输 出 结果 ， 代 码 如 下 : 


public static class Reduce 

extends Reducer<Text, IntWritable, Text, IntWritable>{ 
public void reduce (Text key, Iterable<IntWritable>values, 
Context context) throws IOException, InterruptedException{ 
int sum=0; 

int count=0; 

Iterator <IntWritable>iterator=values.iterator () ; 

while (iterator.hasNext () ) { 

sum+=iterator.next () .get O) ; // 计 算 总 分 

count++; // 统 计 总 的 科目 数 

} 

int average= (int) sum/count; // 计 算 平 均 成 绩 

context.write (key, new IntWritable (average) ) ; 

} 

} 


Mapper 最 终 处 理 的 结果 <key, value > 对 会 被 送 到 Reducer 中 进行 合 
并 ， 在 合并 的 时 候 ， 有 相同 key 的 键 / 值 对 会 被 送 到 同一 个 Reducer 上 。 
Reducer 是 所 有 用 户 定 制 Reducer 类 的 基 类 ， 它 的 输入 是 key 及 这 个 key 
对 应 的 所 有 value 的 一 个 送 代 器 ， 还 有 Reducer 的 上 下 文 。Reduce 处 理 的 
结果 将 通过 Reducer.Context 的 write 方 法 输出 到 文件 中 。 


4.4 本 地 测试 


Score_Process 类 继承 于 Configured 的 实现 接口 Tool， 上 述 的 Map 和 
Reduce 是 Score_Process 的 内 部 类 ， 它 们 分 别 实现 了 Map 和 Reduce 功 
能 ， 主 函数 存在 于 Score_Process 中 。 下 面 创 建 一 个 Score_Process 实 例 
对 程序 进行 测试 。 


Score_process 的 run () 方法 的 实现 如 下 : 


public int run (String[]args) throws Exception{ 
Job job=new Job (getConf () ) ; 


job.setJarByClass (Score _Process.class) ; 


job.setJobName ("Score_Process") ; 

job.setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (IntWritable.class) ; 
job.setMapperClass (Map.class) ; 

job.setCombinerClass (Reduce.class) ; 

job.setReducerClass (Reduce.class) ; 
job.setInputFormatClass (TextInputFormat.class) ; 
job.setOutputFormatClass (TextOutputFormat.class) ; 
FileInputFormat.setInputPaths (job, new Path (args[0]) ) ; 
FileOutputFormat.setOutputPath (job, new Path (args[1]) ) ; 
boolean success=job.waitForCompletion (true) ; 


return success?0: 1; 


} 


下 面 给 出 main O 函数 ， 对 程序 进行 测试 : 


public static void main (String[]args) throws Exception{ 
int ret=ToolRunner.run (new Score_Process () , args) ; 
System.exit (ret) ; 


} 


如 果 程 序 要 在 Eclipse 中 执行 ， 那 么 用 户 需 要 在 run congfiguration 中 
设置 好 参数 ， 输 入 的 文件 夹 名 为 input， 输 出 的 文件 夹 名 为 output 。 


4.5 ”运行 MapReduce 程 序 


想 要 测试 人 体 的 健康 状况 ， 要 先知 道人 体 各 个 组 织 的 健康 状况 ， 
然后 再 综合 评价 人 体 的 健康 状况 。 假 设 每 个 组 织 的 健康 指标 是 一 个 0~ 
100 之 间 的 数字 ， 得 到 综合 身体 健康 状况 的 方法 是 计算 所 有 组 织 健康 指 
标的 平均 数 。 由 于 测试 的 人 数 众 多 ， 因 此 存储 数据 的 格式 为 : 姓名 
+ 得 分 +# (代表 一 个 人 单个 人 体 组 织 的 健康 状况 ) ， 每 个 组 织 的 健康 
状况 分 别 用 一 个 文件 存储 。 现 在 一 共有 1000 个 组 织 参与 了 评估 ， 即 用 
1000 个 文件 分 别 存储 。 


由 于 此 例 中 对 数据 的 处 理 与 前 面 对 学 生成 绩 进行 的 简单 处 理 有 一 
些 区 别 ， 下 面 先 将 程序 的 主要 部 分 列举 出 来 。 


Mapper 部 分 的 代码 如 下 : 


public static class Map 

extends Mapper <Longwritable, Text, Text, IntWritable>{ 

public void map (LongWwritable key, Text value, Context context) 

throws IOException, InterruptedException{ 

String line=value.toString () ; 

// 以 “#” 为 分 隔 符 ， 将 输入 的 文件 分 割 成 单个 记录 

StringTokenizer tokenizerArticle=new StringTokenizer 
(line, "#") ; 

// 对 每 个 记录 进行 处 理 

while (tokenizerArticle.hasMoreTokens () ) { 

// 将 每 个 记录 分 成 姓名 和 分 数 两 个 部 分 

StringTokenizer tokenizerLine=new StringTokenizer 
(tokenizerArticle.nextToken () ) ; 

while (tokenizerLine.hasMoreTokens () ) { 

String strName=tokenizerLine.nextToken () ; 


if (tokenizerLine.hasMoreTokens () ) { 
String strScore=tokenizerLine.nextToken () ; 
Text name=new Text (strName) ; // 姓 名 
int scoreInt=Integer.parseInt (strScore) ; // 该 组 织 的 状况 得 分 
context.write (name, new IntWritable (ScoreInt) ) ; 


} 
} 
} 
} 


上 述 程序 比较 人 简单， 和 单 节点 上 的 代码 也 很 相似 ， 配 合 注释 束 能 
够 很 好 地 理解 ， 因 此 束 不 再 多 讲解 了 。 


下 面 是 Reducer 部 分 的 代码 : 


public static class Reduce 

extends Reducer<Text, IntWritable, Text, IntWritable>{ 
public void reduce (Text key, Iterable<IntWritable>values, 
Context context) throws IOException, InterruptedException{ 
int sum=0; 

int count=0; 

Iterator <IntWritable>iterator=values.iterator () ; 

while (iterator.hasNext () ) { 

sum+=iterator.next () .get () ; 

count++; 

} 

int average= (int) sum/count; 

context.write (key, new IntWritable (average) ) ; 

} 

} 


iB 
下 面 就 分 别 展示 编译 和 打包 的 过 程 。 


编译 代码 如 下 : 


Javac-classpath/usr/local/hadoop/hadoop-1.0.1/hadoop-core- 
1.0.1.jar-d 
ScoreProcessFinal_classes ScoreProcessFinal.java 


上 述 命 令 会 将 ScoreProcessFinal.java 编 译 后 的 所 有 class 文 件 放 到 
ScoreProcessFinal_classes 文 件 夹 下。 执行 下 面 的 命令 打包 所 有 的 class 
文件 : 


jar-cvf/usr/local/hadoop/hadoop-1.0.1/bin/ScoreProcessFinal.jar- 
C ScoreProcessFinal_classes/. 

标明 清单 (manifest) 

增加 : ScoreProcessFinal$Map.class (〈 读 入 =1899) 〈 写 出 =806) (压缩 了 
57%) 

增加 : ScoreProcessFinal$Reduce.class ( 读 入 =1671) (SH=707) (压缩 了 
57%) 

增加 : ScoreProcessFinal.class (iZ%A=2374) (SH=1183) (U4 50%) 


4.5.2 ”在 本 地 模式 下 运行 


使 用 下 面 的 命令 以 本 地 模式 运行 打包 后 的 程序 : 


hadoop jar ScoreProcessFinal.jar inputOfScoreProcessFinal 
outputOfScoreProcessFinal 


上 面 的 命令 以 inputOfScoreProcessFinal 为 输入 路 径 ， 同 时 以 
outputOfScoreProcessFinal 为 输出 路 径 。 


到 此 ， 我 们 已 经 将 编译 打包 和 在 本 地 模式 下 运行 的 情况 讲解 完 
Ta 


45.3 ”在 集群 上 运行 


接 下 来 讲解 程序 如 何在 集群 上 运行 。 在 笔者 的 实验 环境 中 ， 一 共 
有 4 台 机 器 ， 其 中 一 台 同 时 担当 JobTracker 和 NameNode 的 角色 ， 但 不 担 
当 TaskTracker 和 DataNode 的 角色 ， 另 外 3 人 台 机 需 则 同时 担当 Tasktracker 
和 DataNode 的 角色 。 


首先 ， 将 输入 的 文件 复制 到 HDFS 中 ， 用 以 下 命令 完成 该 功 和 


CC 


hadoop dfs-copyFromLocal/home/u/Desktop/inputOfScoreProcessFinal 
inputOfScoreProcessFinal 


~/hadoop-0.20.2/bin$hadoop jar/home/u/TG/ScoreProcessFinal. jar 
ScoreProcessFinal inputOfScoreProcessFinal 
outputOfScoreProcessFinal 


执行 上 述 命 令 运 行 ScoreProcessFinal.jar 中 的 ScoreProcessFinal 类 , 
并 且 将 inputOf-ScoreProcessFinal 作 为 输入 ，outputOfScoreProcessFinal 
作为 输出 。 


46 网 络 用 户 弄 面 


Hadoop 自 带 的 网 络 用 户 界面 在 查看 工作 的 信息 时 很 方便 (在 
http: //jobtracker-host: 50030/ 中 能 找到 用 户 界面 ) 。 在 Job 运 行 时 ， 它 
对 于 跟踪 Job 工 作 进程 很 有 用 ， 同 样 在 工作 完成 后 查看 工作 统计 和 日 志 
时 也 会 很 有 用 。 


4.6.1 JobTracker 页 面 


JobTracker 页 面 主要 包括 五 部 分 


第 一 部 分 是 Hadoop 安 装 的 详细 信息 ， 比 如 版 本 号 、 编 译 完 成 时 
间 、JobTracker 当 前 的 运行 状态 和 开始 时 间 。 


第 二 部 分 征集 群 的 一 个 总 结 信息 : 集群 容量 (用 集群 上 可 用 的 
ee 及 使 用 情况 、 集 群 上 运行 的 Map 和 
Reduce 的 数量 、 提 交 的 工作 总 量 、 当 前 可 用 的 TaskTracker 节 点 数 和 每 
个 节点 平均 可 用 槽 的 数量 。 


第 三 部 分 古 一 个 正在 运行 的 工作 日 程 表 。 打 开 能 看 到 工作 的 序 


第 四 部 分 显示 的 是 正在 运行 、 完 成 、 失 败 的 工作 ， 这 些 显示 信息 
通过 表格 来 体现 。 表 中 每 一 行 代表 一 个 工作 并 且 显示 了 工作 的 ID 号 、 
所 属 者 、 名 字 和 进程 信息 。 


最 后 一 部 分 是 页 面 的 最 下 面 JobTracker 日 志 的 链接 和 JobTracker 的 
历史 信息 : JobTracker 运 行 的 所 有 工作 信息 。 在 将 这 些 信息 提交 到 历史 
页 面 之 前 ， 主 要 显示 100 个 工作 (可 以 通过 mapred.job.name 进 行 配 
置 ) 。 注 意 ， 历 史记 录 是 永久 保存 的 ， 因 此 可 以 从 JobTracker 以 前 运行 
的 工作 中 找到 相关 的 记录 。 


46.2 工作 页 面 


点 击 一 个 工作 的 ID 将 看 到 它 的 工作 页 面 。 在 工作 页 面 的 顶部 是 一 
个 关于 工作 的 一 些 总 结 性 基本 信息 ， 比 如 工作 所 属 者 、 名 字 、 工 作文 
件 和 工作 已 经 执行 了 多 长 时 间 等 。 工 作文 件 是 工作 的 加 强 配置 文件 ， 
包含 在 工作 运行 期 间 所 有 有 效 的 属性 及 它们 的 取 值 。 如 末 不 确定 某 个 
属性 的 取 值 ， 可 以 点 击 进一步 查看 文件 。 


当 工 作 运 行 时 ， 可 以 在 页 面 上 监控 它 的 进展 情况 ， 因 为 页 面 会 周 
期 性 更 新 。 在 总 结 信息 的 下 面 是 一 张 表 ， 它 显示 了 Map 和 Reduce 的 进 
展 情况 。“ 任 务 栏 "显示 了 该 工作 的 Map 和 Reduce 任 务 的 总 数 (Map 和 
Reduce 各 占 一 行 ) 。 其 他 列 显 示 了 这 些 任务 的 状态 : “RE (SERA 
行 )、“ 正 在 执行 *、“ 完 成 ”( 运 行 成 功 ) > ALE” (准确 地 说 应 该 称 
为 “失败 ”) ， 最 后 一 列 显示 了 失败 或 终止 的 任务 所 党 试 的 总 数 。 


图 4-1 显 示 工 作 页 面 最 下 面 的 内 容 。 


图 4-1 是 每 个 任务 完成 情况 的 一 个 图 形 化 表示 。Reduce 完 成 图 分 为 
3 个 阶段 : 复制 〈 发 生 在 将 Map 输 出 转交 给 Reduce 的 TaskTracker 时 ) ` 
排序 (发 生 在 Reduce 输 入 合并 时 ) 和 Reduce (发 生 在 Reduce 范 数 起 作 
用 并 产生 最 终 输出 时 ) 。 


Map Completion Graph - close 
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Reduce Completion Graph - close 
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4-1 每 个 Map 和 Reduce 任 务 的 执行 进度 


4.6.3 返回 结果 


执行 完 任 务 后 ， 可 以 通过 以 下 几 种 方式 得 到 结 采 。 


1) 通过 命令 行 直接 显示 输出 文件 夹 中 的 文件 。 


hadoop dfs-ls outputOfScoreProcessFinal 


通过 以 上 命令 的 执行 结果 可 以 发 现 ， 输 出 的 结果 中 一 共有 6 个 文 
件 ， 分 别 是 part-r-00000 到 part-r-00005。 还 可 以 具体 显示 每 个 文件 中 的 


内 容 ， 例 如 要 显示 part-r-00000 中 的 内 容 ， 命 令 如 下 : 


hadoop dfs-cat outputofScoreProcessFinal/part-r-00000 


2) 将 输出 的 文件 从 HDFS 复 制 到 本 地 文件 系统 上 ， 在 本 地 文件 系 
统 上 查看 。 


= 


wou FP: 


hadoop dfs-get 
outputOfScoreProcessFinal/*/home/u/outputOfScoreProcessFinal 


上 述 命 令 的 主要 功能 是 将 HDFS 中 目 孙 outputOfScoreProcessFinal 
下 的 所 有 文件 复制 到 本 地 文件 系统 的 目 
录 /home/u/outputOfScoreProcessFinal 下， 然后 束 可 以 方便 地 进行 查看 
ae o 


另外 还 可 以 在 命令 行 中 将 输出 文件 part-r-00000 到 part-r-00005 合 并 
成 一 个 文件 ， 并 复制 到 本 地 文件 系统 中 。 下 面 就 是 在 命令 行 中 进行 的 
操作 : 


hadoop dfs-getmerge outputOfScoreProcessFinal/home/u/outputScore 


上 壕 命 令 的 功能 束 是 ， 将 HDFS 中 目录 outputOfScoreProcessFinal 
下 的 所 有 文件 ( 即 part-r-00000 到 part-r-00005) 进行 合并 ， 然 后 复制 到 
本 地 文件 系统 中 的 目录 /home/u/outputScore 下。 


3) 通过 Web 界 面 查 看 输出 的 结 


通过 浏览 器 访问 集群 的 NameNode 界 面 ， 点 击 页 面 上 的 “Browse the 
filesystem” 即 可 看 到 HDFS 中 的 内 容 ， 依 次 点 击 home、u、 
outputOfScoreProcessFinal， 束 可 以 看 到 程序 的 输出 文件 ， 再 点 击 各 个 
具体 的 输出 文件 可 以 查看 输出 内 容 。 


46.4 任务 页 面 


工作 页 面 中 的 一 些 链接 可 以 用 来 查看 该 工作 中 任务 的 详细 信息 。 
例如 ， 点 击 “Map” 链 接 ， 将 看 到 一 个 页 面 ， 所 有 的 Map 任 务 信息 都 列 
在 这 一 页 上 。 当 然 ， 也 可 以 只 看 已 经 完成 的 任务 。 任 务 页 面 显 示 信 息 
以 表格 形式 来 体现 ， 表 中 的 每 一 行 都 表示 一 个 任务 ， 它 包含 了 诸如 开 
始 时 间 、 结 束 时 间 之 类 的 信息 ， 以 及 由 TaskTracker 提 供 的 错误 信息 和 
查看 单个 任务 的 计数 器 的 链接 。 同 样 ， 点 击 “Reduce” 链 接 也 可 以 看 到 
一 个 页 面 ， 所 有 的 Reduce 任 务 信息 都 列 在 这 一 页 上 。 同 样 可 以 只 看 已 
经 完成 的 任务 。 显 示 的 信息 内 容 与 Map 界 面 的 相同 。 


46.5 ERAT HH 


在 任务 页 面 上 可 以 点 击 任何 任务 来 得 到 关于 它 的 详细 信息 。 图 4-2 
的 任务 细 市 页 面 显示 了 每 个 任务 的 笑 试 情况 。 在 这里， 只 有 一 个 任务 
壬 试 并 且 成 功 完成 。 图 中 包含 的 表格 提供 了 更 多 的 有 用 数据 ， 比 如 任 
务 党 试 是 在 哪个 节点 上 运行 的 ， 同 时 还 可 以 碍 看 任务 日 志文 件 和 计数 
器 的 链接 。 这 个 表 中 还 包含 “Actions” 列 ， 可 终止 一 个 任务 尝试 的 链 
接 。 黑 认 情 况 下 ， 这 项 功能 是 没有 局 用 的 ， 网 络 用 户 界面 只 十 一 个 只 


读 接 口 。 将 webinterface.private.actions 设 为 true 即 可 启用 这 项 功能 。 


对 于 Map 任 务 ， 有 一 个 部 分 ( 即 图 4-2 中 的 “Input Split Location” X. 
域 ) 信息 显示 了 输入 的 片段 被 分 配 到 了 哪个 节点 上 。 


Job job_201101042117 0035 


All Task Attempts 


4-2 ”任务 笑 试 页 面 


4.7 性 能 调 优 


一 个 程序 可 以 完成 基本 功能 其 实 还 不 够 ， 还 有 一 些 具 有 实际 意义 
的 问题 需要 解决 ， 比 如 性 能 是 不 是 足够 好 、 有 没有 提高 的 空间 等 。 具 
体 来 讲 包括 两 个 方面 的 内 容 : 一 个 是 时 间 性 能 ， 另 一 个 是 空间 性 能 。 
衡量 性 能 的 指标 惑 是 ， 能 够 在 正确 完成 功能 的 基础 上 ， 使 执行 的 时 间 
尽量 短 ， 占 用 的 空间 尽量 小 。 


前 面 只 是 实现 了 程序 基本 应 该 实现 的 功能 ， 对 性 能 问题 并 没有 加 
以 考虑 。 下 面 束 从 不 同 的 角度 来 简单 地 介绍 一 下 提高 性 能 的 方法 。 


4.7.1 输入 采用 大 文件 


在 前 面 的 例子 当中 ， 笔 者 的 实验 数据 包含 1000 个 文件 ， 在 HDFS 
中 共 占 用 了 1000 个 文件 块 ， 而 每 一 个 文件 的 大 小 都 是 2.3MB ， 相 对 于 
HDFS 块 的 默认 大 小 64MB 来 说 算是 比较 小 的 了 。 如 果 MapReduce 在 处 
理 数据 时 ，Map 阶 段 输 入 的 文件 较 小 而 数量 众多 ， 束 会 产生 很 多 的 
Map 任 务 ， 以 前 面 的 输入 为 例 ， 一 共产 生 了 1000 个 Map 任 务 。 每 次 新 
的 Map 任 务 操 作 都 会 造成 一 定 的 性 能 损失 。 针 对 上 述 2.2GB 大 小 的 数 
据 ， 在 实验 环境 中 运行 的 时 间 大 概 为 33 分 钟 。 


为 了 尽量 使 用 大 文件 的 数据 ， 笔 者 对 这 1000 个 文件 进行 了 一 次 预 
处 理 ， 也 束 是 将 这 些 数量 众多 的 小 文件 合并 成 大 一 些 的 文件 ， 最 终 将 
它们 合并 成 了 一 个 大 小 为 2.2GB 的 大 文件 。 然 后 再 以 这 个 大 文件 作为 
输入 ， 在 同样 的 环境 中 进行 测试 ， 运 行 的 时 间 大 概 为 4 分 钟 。 


从 实验 结果 可 以 很 明显 地 看 出 二 者 在 执行 时 间 上 的 差别 非常 大 。 
因此 为 了 提高 性 能 ， 应 该 对 小 文件 做 一 些 合理 的 预 处 理 ， 变 小 为 大 ， 
从 而 缩短 执行 的 时 间 。 不 仅 如 此 ， 合 并 前 的 众多 文件 在 HDFS 中 占用 
了 1000 个 块 ， 而 合并 后 的 文件 在 HDFS 中 只 占用 36 个 块 (64MB 为 一 
块 ) ， 占 用 空间 也 相应 地 变 小 了 ， 可 谓 一 举 两 得 。 


另外 ， 如 果 不 对 小 文件 做 合并 的 预 处 理 ， 也 可 以 借用 Hadoop 中 的 
CombineFileInputFormat。 它 可 以 将 多 个 文件 打包 到 一 个 输入 单元 中 ， 
从 而 每 次 执行 Map 操 作 束 会 处 理 更 多 的 数据 。 同 时 ， 
CombineFileInputFormat 会 考虑 节点 和 集群 鸭 位 置信 息 ， 以 决定 哪些 文 
件 被 打包 到 一 个 单元 之 中 ， 所 以 使 用 CombineFileInputFormat 也 会 使 性 
能 得 到 相应 地 提高 。 


4.7.2 ”压缩 文件 


在 分 布 式 系统 中 ， 不 同 世 点 的 数据 交换 是 影响 整体 性 能 的 一 个 重 
要 因素 。 另 外 在 Hadoop 的 Map 阶 段 所 处 理 的 输出 大 小 也 会 影响 整个 
MapReduce 程 序 的 执行 时 间 。 这 古 因 为 Map 阶 段 的 输出 首先 存储 在 一 
定 大 小 的 内 存 绥 冲 区 中 ， 如 果 Map 输 出 的 大 小 超出 一 定 限度 ，Map task 
就 会 将 结果 写 入 磁盘 ， 等 Map 任 务 结束 后 再 将 它们 复制 到 Reduce 任 务 
的 市 点 上 上。 如 果 数 据 量 大 ， 中 间 的 数据 交换 会 占用 很 多 的 时 间 。 


一 个 提高 性 能 的 方法 是 对 Map 的 输出 进行 压缩 。 这 样 会 带 来 以 下 
几 个 方面 的 好 处 : 减少 存储 文件 的 空间 ; 加 快 数据 在 网 络 上 (不 同 节 
点 间 ) 的 传输 速度 ， 以 及 减少 数据 在 内 存 和 磁盘 间 交 换 的 时 间 。 可 以 
通过 将 mapred.compress.map.output 属 性 设置 为 true 来 对 Map 的 输出 数据 
进行 压缩 ， 同 时 还 可 以 设置 Map 输 出 数据 的 压缩 格式 ， 通 过 设置 
mapred.map.output.compression.codec 属 性 即 可 进行 压缩 格式 的 设置 。 


4.7.3 ”过 小 数据 


数据 过 滤 主 要 指 在 面 对 海 量 输入 数据 作业 时 ， 在 作业 执行 之 前 先 
将 数据 中 无 用 数据 、 品 声 数据 和 异常 数据 清除 。 通 过 数据 过 滤 可 以 降 
低 数 据 处 理 的 规模 ， 较 大 程度 地 提高 数据 处 理 效率 ， 同 时 避免 异 币 数 
据 或 不 规范 数据 对 最 终结 果 造 成 负面 影响 。 


在 数据 处 理 的 时 候 如 何 进行 数据 过 滤 呢 ? 在 MapReduce 中 可 以 根 
据 过 滤 条 件 利用 很 多 办 法 完成 数据 预 处 理 中 的 数据 过 滤 ， 比 如 编写 预 
处 理 程序 ， 在 程序 中 加 上 过 滤 条 件 ， 形 成 真正 的 处 理 数据 ， 也 可 以 在 
数据 处 理 任务 的 最 开始 代码 处 加 上 过 滤 条 件 ; 还 可 以 使 用 特殊 的 过 滤 
亏 数 据 结 采 来 完成 过 滤 。 下 面 笔 者 以 一 种 在 并 行程 序 中 功能 强大 的 过 
滤器 结构 为 例 来 介绍 如 何在 MapReduce 中 对 海量 数据 进行 过 滤 。 


Bloom Filter 是 在 1970 年 由 Howard Bloom 提 出 的 二 进 制 向 量 数 据 结 
构 。 在 保存 所 有 集合 元 素 特征 的 同时 ， 它 能 在 保证 高 效 空间 效率 和 一 
定 出 错 率 的 前 提 下 迅速 检测 一 个 元 素 是 不 是 集合 中 的 成 员 。Bloom 
Filter 的 误 报 (false positive) 只 会 发 生 在 检测 集合 内 的 数据 上 ， 而 不 会 
对 集合 外 的 数据 产生 漏 报 (false negative) 。 这 样 每 个 检测 请 求 返 回 
有 “在 集合 内 (可 能 错误 ) ”和 “不 在 集合 内 (绝对 不 在 集合 内 ) ”两 种 
情况 ， 可 见 Bloom Filter 牺 牲 了 极 少 正确 率 换取 时 间 和 空间 ， 所 以 它 不 


适合 那些 “ 零 错 误 ” 的 应 用 场合 。 在 MapReduce 中 ，Bloom Filter H 
Bloom Filter% (此 类 继承 了 Filter 类 ，Filter 类 实现 了 Writable 序 列 化 接 
O) 实现 ， 使 用 add (Key key) 函数 将 一 个 key 值 加 入 Filter， 使 用 
membershipTest (Key key) 来 测试 某 个 key 是 否 在 Filter 内 。 


以 上 说 明了 Bloom Filter 的 大 概 思想 ， 那 么 在 实践 中 如 何 使 用 
Bloom Filter 呢 ? 假设 有 两 个 表 需 要 进行 内 连接 ， 其 中 一 个 表 非 党 大 ， 
另 一 个 表 非 常 小 ， 这 时 为 了 加 快 处 理 速度 和 减 小 网 络 带宽 ， 可 以 基于 
小 表 创 建 连 接 列 上 的 Bloom Filter。 具 体 做 法 是 先 创 建 Bloom Filter 对 
象 ， 将 小 表 中 所 有 连接 列 上 的 值 都 保存 到 Bloom Filter 中 ， 然 后 开始 通 
过 MapReduce 作 业 执 行内 连接 。 在 连接 的 Map 阶 段 ， 读 小 表 的 数据 时 
直接 输出 以 连接 列 值 为 key、 以 数据 为 value 的 <key, value> 对; 读 大 
表 数 据 时 ， 在 输出 前 先 判 断 当前 元 组 的 连接 列 值 是 否 在 Bloom Filter 
内 ， 如 果 不 存 在 就 说 明 在 后 面 的 连接 阶段 不 会 使 用 到 ， 不 需要 输出 ， 
如 果 存 在 就 采用 与 小 表 同 样 的 输出 方式 输出 。 最 后 在 Reduce 阶 段 ， 针 
对 每 个 连接 列 值 连 接 两 个 表 的 元 组 并 输出 结 


大 家 已 经 知道 了 Bloom Filter 的 作用 和 使 用 方法 ， 那 么 Bloom Filter 
具体 是 如 何 实现 的 呢 ? 又 是 如 何 保证 空间 和 时 间 的 高 效 性 呢 ? 如何 用 
正确 率 换取 时 间 和 空间 的 呢 ? (基于 MapReduce 中 实现 的 BloomFilter 
代码 进行 分 析 ) Bloom Filter 目 始 至 终 是 一 个 M 位 的 位 数组 : 


private static final byte[]bitvalues=new byte[]{ 


byte) 0x01, 
byte) 0x02, 
byte) 0x04, 
byte) 0x08, 
byte) 0x10, 
byte) 0x20, 
byte) 0x40, 
byte) 0x80 


它 有 两 个 重要 接口 ， 分 别 是 add () 和 membershipTest () , add 
() 负责 保存 集合 元 素 的 特征 到 位 数组 (类 似 于 一 个 学 习 的 过 程 ) ， 
在 保存 所 有 集合 元 素 特征 之 后 可 以 使 用 membershipTest () 来 判断 某 


个 值 是 否 是 集合 中 的 元 素 。 


在 初始 状态 下 ，Bloom Filter 的 所 有 位 都 被 初始 化 为 0。 为 了 表示 

合 中 的 所 有 元 素 ，Bloom Fliter 使 用 k 个 互相 独立 的 Hash 函 数 ， 它 们 
分 别 将 集合 中 的 每 个 元 素 映射 到 (1，2，..….……， M) 这 个 范围 上 ， 映 
味 的 位 置 作为 此 元 素 特 征 值 的 一 维 ， 并 将 位 数组 中 此 位 置 的 值 设置 为 
1， 最 终 得 到 的 k 个 Hash 芳 数值 将 形成 集合 元 素 的 特征 值 同 量 ， 同 时 此 
向 量 也 被 保存 在 位 数组 中 。 从 获取 k 个 Hash 函 数值 到 修改 对 应 位 数组 
值 ， 这 就 是 add 接 口 所 完成 的 任务 。 


public void add (Key key) { 
if (key==null) { 
throw new NullPointerException ("key cannot be null") ; 


} 
int[]h=hash.hash (key) ; 
hash.clear () ; 

for (int i=0; i<nbHash; i++) { 
bits.set (h[i]) ; 


利用 add 接 口 将 所 有 和 集合 元 素 的 特征 值 向 量 保存 到 Bloom Filter 之 
后 ， 惑 可 以 使 用 此 过 滤器 也 就 是 membershipTest 接 口 来 判断 某 个 值 是 
否 是 集合 元 素 。 在 判断 时 ， 首 先 还 是 计算 待 判 断 值 的 特征 值 向 量 ， 也 
束 是 k 个 Hash 久 数 值 ， 然 后 判断 特征 值 向 量 每 一 维 对 应 的 位 数组 位 置 
上 的 值 是 否 是 1， 如 果 全 部 是 1， 那 么 membershipTest 返 回 true， 否 则 返 
回 false， 这 就 是 判断 值 是 否 存 在 于 集合 中 的 原理 。 


public boolean membershipTest (Key key) { 

if (key==null) { 

throw new NullPointerException ("key cannot be null") ; 
} 

int[]h=hash.hash (key) ; 

hash.clear () ; 

for (int i=0; i<nbHash; i++) { 

if (! bits.get (h[i]) ) { 

return false; 


} 


return true; 


从 上 面 add 接 口 和 membershipTest 接 口 实现 的 原理 可 以 看 出 ， 正 是 
Hash 范 数 冲突 的 可 能 性 导致 误 判 的 可 能 。 由 于 Hash 函 数 冲突 ， 两 个 值 
的 特征 值 向 量 也 有 可 能 冲突 (k 个 Hash 函 数 全 部 冲突 ) 。 如 果 两 个 值 
中 只 有 一 个 是 集合 元 素 ， 那 么 该 值 的 特征 值 向 量 会 保存 在 位 数组 中 ， 
从 而 在 判断 另外 一 个 非 集合 元 素 的 值 时 ， 会 发 现 该 值 的 特征 值 向 量 已 
经 保存 在 位 数组 中 ， 最 终 返 回 true， 形 成 误 判 。 那 么 都 有 哪些 因素 影 


啊 了 错误 率 呢 ? 通过 上 面 的 分 析 可 以 看 出 ，Hash 函 数 的 个 数 和 位 数组 
的 大 小 影响 了 错误 率 。 位 数组 越 大 ， 特 征 值 向 量 冲突 的 可 能 性 越 小 ， 
错误 率 也 小 。 在 位 数组 大 小 一 定 的 情况 下 ，Hash 芳 数 个 数 越 多 ， 形 成 
的 特征 值 同 量 维 数 越 多 ， 冲 突 的 可 能 性 越 小 ;但 是 维 数 越 多 ， 占 用 的 
位 数组 位 置 越 多 ， 叉 提高 了 冲突 的 可 能 性 。 所 以 在 实际 应 用 中 ， 在 使 
用 Bloom Filter 时 应 根据 实际 需要 和 一 定 的 信 计 来 确定 合适 的 数组 规模 
AINE Aa ER SOUR 。 


通过 上 面 的 介绍 和 分 析 可 以 发 现 ， 在 Bloom Filter 中 插入 元 素 和 得 
询 值 都 是 O (1) 的 操作 ， 同 时 它 并 不 保存 元 素 而 是 采用 位 数组 保存 特 
征 值 ， 并 且 每 一 位 都 可 以 重复 利用 。 所 以 同 集合 、 链 表 和 树 等 传统 
法 相 比 ，Bloom Filter 无 颖 在 时 间 和 空间 性 能 上 都 极为 优秀 。 但 错误 率 
限制 了 Bloom Filter 的 使 用 场景 ， 只 允许 误 报 (false positive) 的 场景 ; 
同时 由 于 一 位 多 用 ， 因 此 Bloom Filter 并 不 文 持 删除 集合 元 素 ， 在 删除 
某 个 元 素 时 可 能 会 同时 删除 另外 一 个 元 素 的 部 分 特征 值 。 图 4-3 是 一 个 
简单 的 例子 ， 既 说 明了 Bloom Filter 的 实现 过 程 ， 又 说 明了 错误 发 生 的 
原因 〈 步 骤 吧 判断 的 值 是 包含 在 集合 中 的 ， 但 是 返回 值 为 tue) 。 
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4-3 Bloom Filter 实 现 过 程 


A7.4 修改 作业 属性 


属性 mapred.tasktrackermap.tasks.maximum 的 默认 值 是 2， 属 性 


mapred.tasktracker.map.tasks.maximum 的 默认 值 也 是 2， 因 此 每 个 节点 
上 实际 处 于 运行 状态 的 Map 和 Reduce 的 任务 数 最 多 为 2， 而 较为 理想 的 
数值 应 在 10~~100 之 间 。 因 此 ， 可 以 在 conf 目 录 下 修改 属性 


mapred.tasktracker.map.tasks.maximum 和 


mapred.tasktracker.reduce.tasks.maximum 的 取 值 ， 将 它们 设置 为 一 个 较 
大 的 值 ， 使 得 每 个 站 点 上 同时 运行 的 Map 和 Reduce 任 务 数 增加 ， 从 而 
缩短 运行 的 时 间 ， 提 高 整体 的 性 能 。 


例如 下 面 的 修改 : 


<property> 

<name>mapred.tasktracker.map.tasks.maximum< /name > 

<value >10</value> 

<description>The maximum number of map tasks that will be run 

simultaneously by a task tracker. 

</description> 

</property> 

<property> 

<name>mapred.tasktracker.reduce.tasks.maximum< /name > 

<value >10</value> 

<description>The maximum number of reduce tasks that will be 
run 

simultaneously by a task tracker. 

</description> 

</property> 


4.8 MapReduce IFE 


到 目前 为 止 ， 已 经 讲述 了 使 用 MapReduce 编 写 程序 的 机 制 。 不 过 
还 没有 讨论 如 何 将 数据 处 理 问题 转化 为 MapReduce 模 型 。 


数据 处 理 只 能 解决 一 些 非 常 简单 的 问题 。 如 条 处 理 过 程 变 得 复杂 
了 ， 这 种 复 洒 性 会 通过 更 加 复杂 、 人 完善 的 Map 和 Reduce 范 数 ， 甚 至 更 
多 的 MapReduce 工 作 来 体现 。 下 面 人 简单 介绍 一 些 比较 复杂 的 
MapReduce 编 程 知识 。 


4.8.1 复杂 的 Map 和 Reduce 函 数 


从 前 面 Map 和 Reduce 函 数 的 代码 很 明显 可 以 看 出 ，Map 和 Reduce 
都 继承 自 MapReduce 自 己 定义 好 的 Mapper 和 Reducer 基 类 ，MapReduce 
框架 根据 用 户 继承 Mapper 和 Reducer 后 的 衍生 类 和 类 中 有 覆盖 的 核心 函数 
来 识别 用 户 定 义 的 Map 处 理 阶 段 和 Reduce 处 理 阶段 。 所 以 共有 用 户 继 
承 这些 类 并 且 实 现 其 中 的 核心 男 数 ， 提 交 到 MapReduce 框 架 上 的 作业 
才能 按照 用 户 的 意愿 被 解析 出 来 并 执行 。 前 面 介 绍 的 MapReduce 作 业 
仅仅 继承 并 禾 盖 了 基 类 中 的 核心 钞 数 Map 或 Reduce， 下 面 介绍 基 类 中 
的 其 他 函数 ， 使 大 家 能 够 编写 功能 更 加 复杂 、 控 制 更 加 完备 的 Map 和 
Reduce HRY ° 


1.setup EH ži 
此 函数 在 基 类 中 的 源码 如 下 : 


JER 
*Called once at the start of the task. 
*/ 


protected void setup (Context context 
) throws IOException, InterruptedException{ 
//NOTHING 


} 


从 上 面 的 注释 可 以 看 出 ，setup 画 数 是 在 task 启 动 开始 就 调用 的 。 
在 这 里 先 温 习 一 下 task 的 知识 。 在 MapReduce 中 作业 会 被 组 织 成 Map 
task 和 Reduce task。 每 个 task 都 以 Map 类 或 Reduce 类 为 处 理 方法 主体 ， 
输入 分 片 为 处 理 方法 的 输入 ， 自 己 的 分 片 处 理 完 之 后 task 也 就 销毁 
了 。 从 这 里 可 以 看 出 ，setup 函 数 在 task 启 动 之 后 数据 处 理 之 前 只 调用 
一 次 ， 而 覆盖 的 Map 范 数 或 Reduce 画 数 会 针对 输入 分 片 中 的 每 个 key 调 
用 一 次 。 所 以 setup 画 数 可 以 看 做 task 上 的 一 个 全 局 处 理 ， 而 不 像 在 
Map 函 数 或 Reduce 函 数 中 ， 处 理 只 对 当前 输入 分 片 中 的 正在 处 理 数据 
产生 作用 。 利 用 setup 范 数 的 特性 ， 大 家 可 以 将 Map 或 Reduce 范 数 中 的 
重复 处 理 放 置 到 setup 函 数 中 ， 可 以 将 Map 或 Reduce 函 数 处 理 过 程 中 可 
能 使 用 到 的 全 局 变量 进行 初始 化 ， 或 从 作业 信息 中 获取 全 局 变量 ， 还 
i Gaal A 
全 局 操作 ， 而 不 是 整个 作业 的 全 局 操作 ° 


2.cleanup EARL 
cleanup 函 数 在 基 类 中 的 源码 如 下 : 


JER 

*Called once at the end of the task. 

*/ 

protected void cleanup (Context context 

) throws IOException, InterruptedException{ 
//NOTHING 


} 


NGX TS TERE ALG El, E setup ži, ANA] AME 
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3.run EK aN 


run 芳 数 在 基 类 中 的 源码 如 下 : 


/** 

*Expert users can override this method for more complete control 
over the 

*execution of the Mapper. 

*@param context 

*@throws IOException 

a0 

public void run (Context context) throws IOException, 
InterruptedException{ 

setup (context) ; 

while (context.nextKeyValue () ) { 

map (context.getCurrentKey () , context.getCurrentValue () , 
context) ; 


} 


cleanup (context) ; 


从 上 面 函 数 的 主体 内 容 和 代码 的 注释 可 以 看 出 ， 此 函数 是 Map 类 
或 Reduce 类 的 启动 方法 ， 先 调用 setup 丙 数 ， E = 
WMap K ŽE% Reduce Kk, im task Bil Val H cleanup Ži © 
个 run 范 数 将 Map 阶 段 和 Reduce 阶 段 的 代码 过 程 呈 现 给 了 大 家 。 正 如 注 
释 中 所 说 ， 如 果 想 更 加 完备 地 控制 Map 或 者 Renduce 阶 段 ， 可 以 覆盖 此 

函数 ， 并 像 普通 的 Java 类 中 的 范 数 一 样 添加 上 自己 的 控制 内 容 ， 比 如 增 

加 自己 的 task 启 动 之 后 和 销毁 之 前 的 处 理 ， 或 者 在 while 循 环 内 外 再 定 
义 自 己 针对 每 个 key 的 处 理 内 容 ， 甚 至 可 以 对 Map 和 Reduce 画 数 的 处 理 
结果 进行 进一步 的 处 理 。 


4.8.2 MapReduce Job 中 全 局 共享 数据 


在 编写 MapReduce 代 码 的 时 候 ， 经 常会 遇 到 这 样 的 困扰 : 全 局 变 
量 应 该 如 何 保存 ? 如 何 让 每 个 处 理 都 能 获取 保存 的 这 些 全 局 变量 ? 在 
编程 过 程 中 全 局 变量 的 使 用 是 不 可 避免 的 ， 但 是 在 MapReduce 中 直接 
使 用 代码 级 别 的 全 局 变量 是 不 现实 的 。 这 主要 是 因为 继承 Mapper 基 类 
的 Map 阶 段 类 的 运行 和 继承 Reducer 基 类 的 Reduce 阶 段 类 的 运行 都 是 独 
立 的 ， 并 不 像 代码 看 起 来 的 那样 会 共 译 同一 个 Java 虚 拟 机 的 资源 。 下 
面 介绍 儿 种 在 MapReduce 编 程 中 相对 有 效 的 设置 全 局 共 至 数据 的 方 
法 。 


1. 读 写 HDFS 文 件 


在 MapReduce 框 架 中 ，Map task 和 Reduce task 都 运行 在 Hadoop 集 
群 的 节点 上 ， 所 以 Map task 和 Reduce task、 甚 至 不 同 的 Job 都 可 以 通过 
读 写 HDFS 中 预定 好 的 同一 个 文件 来 实现 全 局 共享 数据 。 具 体 实现 是 
利用 Hadoop 的 Java API (关于 Java API 请 参见 第 9 章 ) 来 完成 的 。 需 要 
注意 的 是 ， 针 对 多 个 Map 或 Reduce 的 写 操作 会 产生 冲突 ， 履 盖 原 有 数 
据 。 


这 种 方法 的 优点 是 能 够 实现 读 写 ， 也 比较 直观 ， 而 缺点 是 要 共 孚 
一 些 很 小 的 全 局 数据 也 需要 使 用 W/O， 这 将 占用 系统 资源 ， 增 加 作业 完 


成 的 痪 源 消 耗 。 
2. 配 置 Job 属 性 


在 MapReduce 执 行 过 程 中 ，task 可 以 读 取 Job 的 属性 。 基 于 这 个 特 
性 ， 大 家 可 以 在 任务 局 动 之 初 利用 Configuration 类 中 的 set (String 
name, String value) 将 一 些 简 单 的 全 局 数据 封装 到 作业 的 配置 属性 中 ， 
然后 在 task 中 再 利用 Configuration 类 中 的 get (String name) 获取 配置 到 
属性 中 的 全 局 数据 。 这 种 方法 的 优点 是 简单 ， 资 源 消 耗 小 ;， 缺点 是 对 
量 比较 大 的 共 至 数据 显得 比较 无 力 。 


3. 使 用 DistributedCache 


DistributedCache 是 MapReduce 为 应 用 提供 缓存 文件 的 只 读 工具 ， 
它 可 以 缓存 文本 文件 、 压 缩 文 件 和 jar 文 件 等 。 在 使 用 时 ， 用 户 可 以 在 
作业 配置 时 使 用 本 地 或 HDFS 文 件 的 URL 来 将 其 设置 成 共享 缓存 文 
件 。 在 作业 启动 之 后 和 task 启 动 之 前 ，MapReduce 框 架 会 将 可 能 需要 的 
缓存 文件 复制 到 执行 任务 节点 的 本 地 。 这 种 方法 的 优点 是 每 个 Job 共 享 
文件 只 会 在 启动 之 后 复制 一 次 ， 并 且 它 适用 于 大 量 的 共享 数据 ;而 缺 
点 是 它 是 只 读 的 。 下 面 举 一 个 简单 的 例子 说 明 如 何 使 用 
DistributedCache (具体 的 示例 程序 可 查看 本 书 附录 C) 。 


1) 将 要 缓存 的 文件 复制 到 HDFS 上 。 


$bin/hadoop fs-copyFromLocal lookup/myapp/lookup 


2) 启用 作业 的 属性 配置 ， 并 设置 待 缓存 文件 。 


Configuration conf=new Configuration () ; 
DistributedCache.addCacheFile (new URI 
("/myapp/lookup#lookup") , conf) ; 


3) Æ Mapi 20+ (# A DistributedCache ° 


public static class Map extends Mapper<Object, Text, Text, Text 
>{ 

private Path[]localArchives; 

private Path[]localFiles; 

public void setup (Context context 

) throws IOException, InterruptedException{ 

// 获 取 缓 存 文件 

Configuration conf=context.getConfiguration () ; 

localArchives=DistributedCache.getLocalCacheArchives (conf) ; 

localFiles=DistributedCache.getLocalCacheFiles (conf) ; 


public void map (K key, V value, 
Context context) 

throws IOException{ 

// 使 用 从 缓存 文件 中 获取 的 数 


TH 


Context.collect (k, v) ; 


} 
} 


4.8.3 ”链接 MapReduce Job 


在 日 常 的 数据 处 理 过 程 中 ， 常 常会 页 到 有 些 问 题 不 是 一 个 
MapReduce 作 业 就 能 解决 的 ， 这 时 就 需要 在 工作 流 中 安排 多 个 
MapReduce 作 业 ， 让 它们 配合 起 来 自动 完成 一 些 复杂 任务 ， 而 不 需要 
用 户 手动 启动 每 一 个 作业 。 那 么 怎样 将 MapReduce Job 链 接 起 来 呢 ? 应 
该 怎么 管理 呢 ? 下 面 来 介绍 如 何 链接 MapReduce Job 和 如 何 配 置 


MapReduce Job 流 。 


1. 线 性 MapReduce Job 流 


MapReduce Job 也 是 一 个 程序 ， 作 为 程序 束 是 将 输入 经 过 处 理 再 输 
出 。 所 以 在 处 理 复 杂 问 题 的 时 候 ， 如 采 一 个 Job 不 能 完成 ， 最 简单 的 办 
法 就 是 设置 多 个 有 一 定 顺 序 的 Job， 每 个 Job 以 前 一 个 Job 的 输出 作为 输 
入 ， 经 过 处 理 ， 将 数据 再 输出 到 下 一 个 Job 中 。 这 样 Job 流 束 能 按照 预 
定 的 代码 处 理 数据 ， 达 到 预期 的 目的 。 这 种 办 法 的 具体 实现 非常 倘 
单 : 将 每 个 Job 的 局 动 代码 设置 成 只 有 上 一 个 Job 结 束 之 后 才 执 行 ， 然 
后 将 Job 的 输入 设置 成 上 一 个 Job 的 输出 路 径 。 


2. 复 杂 MapReduce Jobi, 


第 一 种 方法 非常 直观 简单 ， 但 是 在 某 些 复杂 任务 下 它 仍 然 不 能 满 
足 需求 。 一 种 情况 是 处 理 过 程 中 数据 流 并 不 是 简单 的 线性 流 ， 如 Job3 
需要 将 Job1 和 Job2 的 输出 结果 组 合 起 来 进行 处 理 。 在 这 种 情况 下 Job3 
的 启动 依赖 于 Job1 和 Job2 的 完成 ， 但 是 Job1 和 Job2 之 间 并 没有 关系 。 
针对 这 种 复杂 情况 ，MapReduce 框 架 提供 了 让 用 户 将 Job 组 织 成 复杂 
Job 流 的 API 一 ControlledJob 类 和 JobControl 类 (这 两 个 类 属于 
org.apache.hadoop.mapreduce.lib.jobcontrol 包 ) 。 具 体 做 法 是 : 先 按照 
正常 情况 配置 各 个 Job， 配 置 完成 后 再 将 各 个 Job 封 装 到 对 应 的 
ControlledJob 对 象 中 ， 然 后 使 用 ControlledJob 的 addDependingJob () 
设置 依赖 关系 ， 接 着 再 实例 化 一 个 JobControl 对 象 ， 并 使 用 addJob () 
方法 将 所 有 的 Job 注 入 JobControl 对 象 中 ， 最 后 使 用 JobControl 对 象 的 
run 方 法 启动 Job 流 。 


3.Job 设 置 预 处 理 和 后 处 理 过 程 


对 于 前 面 已 经 介绍 的 复 洒 任务 的 例子 ， 使 用 前 面 的 两 种 方法 能 很 
好 地 解决 。 现 在 假设 另 一 种 情况 ， 在 Job 处 理 前 和 处 理 后 需要 做 一 些 倍 
单 地 处 理 ， 这 种 情况 使 用 第 一 种 方法 仍 能 解决 ， 但 是 如 采 和 针对 这 些 简 
单 的 处 理 设置 狐 的 Job 来 处 理 稍 显 牺 拙 ， 这 里 涉及 第 三 种 情况 ， 通 过 在 
Job 前 或 后 链接 Map 过 程 来 解决 预 处 理 和 后 处 理 。 比 如 ， 在 一 般 统 计 词 
频 的 Job 中 ， 并 不 会 统计 那些 无 意义 的 单词 (a、an 和 the 等 ) ， 这 束 需 
要 在 正式 的 Job 前 链接 一 个 Map 过 程 过 滤 掉 这 些 无 意义 的 单词 。 这 种 方 


具体 是 通过 MapReduce 中 org.apache.hadoop.mapred.lib 包 下 的 
ChainMapper 和 ChainReducer 两 个 静态 类 来 实现 的 ， 这 种 方法 最 终 形 成 
的 是 一 个 独立 的 Job， 而 不 是 Job 流 ， 并 且 只 有 和 针对 Job 的 输入 输出 流 ， 
各 个 阶段 男 数 之 间 的 输入 输出 MapReduce 框 架 会 目 动 组 织 。 下 面 是 一 
个 具体 的 实现 : 


Configuration conf=new Configuration () ; 
JobConf job=new JobConf (conf) ; 
job.setJobName ("Job") ; 
job.setInputFormatClass (TextInputFormat.class) ; 
job.setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (IntWritable.class) ; 
FileInputFormat.setInputPaths (job, new Path (args[0]) ) ; 
FileOutputFormat.setOutputPath (job, new Path (args[1]) ) ; 
JobConf mapiConf=new JobConf (false) ; 
ChainMapper.addMapper (job, 

Mapi.class, 

Longwritable.class, 

Text.class, 

Text.class, 

Text.class, 

true, 

mapiConf) ; 

JobConf map2Conf=new JobConf (false) ; 
ChainMapper.addMapper (job, 

Map2.class, 

Text.class, 

Text.class, 

Longwritable.class, 

Text.class, 

true, 

map2Conf) ; 

JobConf reduceConf=new JobConf (false) ; 
ChainReducer.setReducer (job, 

Reduce.class, 

Longwritable.class, 

Text.class, 

Text.class, 

Text.class, 

true, 


reduceConf) ; 

JobConf map3Conf=new JobConf (false) ; 
ChainReducer.addMapper (job, 
Map3.class, 

Text.class, 

Text.class, 
Longwritable.class, 
Text.class, 

true, 

map3Conf) ; 

JobClient.runJob (job) ; 


在 这 个 例子 中 ，job 对 象 完 组 织 了 作业 全 局 的 配置 ， 接 下 来 再 使 用 
ChainMapper 和 ChainReducer 两 个 静态 类 的 静态 方法 设置 了 作业 的 各 个 
阶段 画 数 。 需 要 注意 的 是 ，ChainMapper 和 ChainReducer 到 目前 为 止 只 


文 持 旧 API， 即 Map 和 Reduce 必 须 是 实现 


org.apache.hadoop.mapred.Mapper 接 口 的 静态 类 (详细 的 示例 程序 请 查 
看 附录 D) 。 


4.9 ”本章 小 结 


在 本 章 中 ， 主 要 总 体 介 绍 了 开发 MapReduce 程 序 的 一 般 框 狠 和 一 
EMAL TTI ° 


在 本 章 一 开始 ， 笔 者 举例 说 明了 MapReduce 的 编程 。 在 单 万 点 上 
完成 Map 函 数 和 Reduce 函 数 ， 并 且 对 它们 进行 测试 。 待 Map 和 Reduce 
都 能 够 成 功 运行 后 ， 再 在 单 节 点 的 大 数据 集 进 行 测 试 。 在 进行 程序 的 
编写 和 编译 时 ， 最 好 在 集成 环境 下 进行 ， 因 为 这 样 便于 程序 的 修改 和 
调试 ， 建 议 在 Eclipse 下 进行 编程 。 


程序 可 以 在 集成 环境 中 运行 ， 也 可 以 在 命令 行 中 编译 打包 ， 然 后 
在 命令 中 执行 。 最 终 的 结果 也 有 3 种 不 同 的 查看 方式 : 在 命令 行 中 直接 
查看 ;复制 到 本 地 文件 系统 中 查看 ;通过 Web 用 户 界 面 查 看 。 


对 于 已 经 能 够 完成 功能 性 要 求 的 MapReduce 程 序 ， 还 可 以 从 多 个 
方面 进行 性 能 上 的 优化 。 比 如 从 几 个 第 见 的 方面 入 手 : 变 小 文件 为 大 
文件 ， 减 少 Map 的 数量 ， 压 缩 最 终 的 输出 数据 或 Map 的 中 间 输 出 结 
R; 在 Hadoop 安 效 路 人 径 下 的 conf 目 录 下 修改 属性 ， 使 能 够 同时 运行 的 
Map 和 Reduce 任 务 数 增多 ， 从 而 提高 性 能 。 


在 本 章 最 后 ， 针 对 日 种 处 理 中 的 复杂 问题 ， 为 大 家 介绍 了 
MapReduce 的 一 些 高 阶 编 程 手段 ， 将 这 些 方 法 运用 于 具体 的 环境 中 ， 
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A5 MapReduce HR 

本 章 内 容 
单词 计数 
数据 去 重 
排序 

单 表 关联 
多 表 关 联 
本 章 小 结 


前 面 已 经 介绍 了 很 多 关于 MapReduce 的 基础 知识 ， 比 如 Hadoop 集 
群 的 配置 方法 ， 以 及 如 何 开 发 MapReduce 应 用 程序 等 。 本 章 将 从 本 书 
配套 的 云 计 算 在 线 监测 平台 (http: //cloudcomputing.ruc.edu.cn/) 上 的 
MapReduce 编 程 题目 出 发 ， 癌 大 家 介绍 如 何 挖 据 实 际 问题 的 并 行 处 理 
可 能 性 ， 以 及 如 何 设计 编写 MapReduce 程 序 。 需 要 说 明 的 是 ， 本 章 所 
有 给 出 的 代码 均 使 用 Hadoop 最 新 的 API 编 写 、 在 伪 分 布 集 群 的 默认 设 
置 下 运行 通过 ， 其 Hadoop 版 本 为 1.0.1，JDK 的 版 本 是 1.7。 本 章 旨 在 帮 
助 刚 接触 MapReduce 的 读者 入 门 。 


5.1 单词 计数 


进入 云 计算 在 线 监测 平台 后 的 第 一 个 编程 题目 是 wordCount， 也 
就 是 文本 中 的 单词 计数 。 如 同 Java 中 的 “Hello World” 经 典 程 序 一 样 ， 
WordCount 是 MapReduce 的 入 门 程序 。 虽 然 此 例 在 本 书 中 的 其 他 章节 也 
有 涉及 ， 但 是 本 章 主要 从 如 何 挖掘 此 问题 中 的 并 行 处 理 可 能 性 角度 出 
发 ， 让 读者 了 解 设计 MapReduce 程 序 的 过 程 。 


5.1.1 实例 描述 


计算 出 文件 中 每 个 单词 的 频数 。 要 求 输出 结 采 按照 单词 的 字母 顺 
序 进 行 排序 。 每 个 单词 和 其 频数 占 一 行 ， 单 词 和 频数 之 间 有 间隔 。 


比如 ， 输 入 一 个 文件 ， 其 内 容 如 下 : 


hello world 
hello hadoop 
hello mapreduce 


对 应 上 面 给 出 的 输入 样 例 ， 其 输出 样 例 为 ， 


hadoop 1 
hello 3 
mapreduce 1 
world 1 


5.1.2 ”设计 思路 


这 个 应 用 实例 的 解决 方案 很 直接 ， 殊 是 将 文件 内 容 切 分 成 单词 ， 
然后 将 所 有 相同 的 单词 聚集 在 一 起 ， 最 后 计算 单词 出 现 的 次 数 并 输 
出 。 根 据 MapReduce 并 行程 序 设计 原则 可 知 ， 解 决 方案 中 的 内 容 切 分 
步骤 和 数据 不 相关 ， 可 以 并 行 化 处 理 ， 每 个 获得 原始 数据 的 机 器 只 要 
将 输入 数据 切 分 成 单词 束 可 以 了 。 所 以 可 以 在 Map 阶 段 完成 单词 切 分 
任务 。 男 外 ， 相 同 单 词 的 频数 计算 也 可 以 并 行 化 处 理 。 由 实例 要 求 来 
看 ， 不 同 单词 之 间 的 频数 不 相关 ， 所 以 可 以 将 相同 的 单词 交 给 一 台 机 
绥 来 计算 频数 ， 然 后 输出 最 终结 果 。 这 个 过 程 可 以 在 Reduce 阶 段 完 
成 。 至 于 将 中 间 结 有 果 根 据 不 同 单词 分 组 再 分 发 给 Reduce 机 做， 这 正好 
征 MapReduce 过 程 中 的 shuffle 能 够 完成 的 。 至 此 ， 这 个 实例 的 
MapReduce 程 序 就 设计 出 来 了 。Map 阶 段 完 成 由 输入 数据 到 单词 切 分 
的 工作 ，shuffle 阶 段 完 成 相同 单词 的 聚集 和 分 发 工作 (这 个 过 程 是 
MapReduce 的 默认 过 程 ， 不 用 具体 配置 ) ，Reduce 阶 段 负责 接收 所 有 
单词 并 计算 其 频数 。MapReduce 中 传递 的 数据 都 是 < key, value> 形 式 
的 ， 并 且 shuffle 排 序 育 集 分 发 都 是 按照 key 值 进行 的 ， 因 此 将 Map 的 输 
出 设计 成 由 word 作 为 key、1 作 为 value 的 形式 ， 这 表示 单词 word 出 现 了 
一 次 《Map 的 输入 采用 Hadoop 默 认 的 输入 方式 : 文件 的 一 行 作为 
value， 行 号 作为 key) 。Reduce 的 输入 为 Map 输 出 聚集 后 的 结果 ， 即 < 


key, value-list> ， 具 体 到 这 个 实例 就 是 <word, {1, 1, 1, 1......} 
> ，Reduce 的 输出 会 设计 成 与 Map 输 出 相同 的 形式 ， 只 是 后 面 的 数字 
不 再 固定 是 1， 而 是 具体 算出 的 word 所 对 应 的 频数 。 下 面 给 出 笔者 实 
验 的 WordCount 代 码 。 


5.1.3 ”程序 代码 


WordCount 代 码 如 下 : 


package cn.edu.ruc.cloudcomputing.book.chapter05; 

import java.io.IOException; 

import java.util.StringTokenizer; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce. Job; 

import org.apache.hadoop.mapreduce. Mapper; 

import org.apache.hadoop.mapreduce. Reducer; 

import org.apache.hadoop.mapreduce.1lib.input.FileInputFormat; 

import org.apache.hadoop.mapreduce.1ib.output.FileOutputFormat; 

import org.apache.hadoop.util.GenericOptionsParser; 

public class WordCount{ 

// 继 承 Mapper 接 口 ， 设 置 map 的 输入 类 型 为 <0bject，Text> 

// 输 出 类 型 为 <Text，Intwritab1le>> 

public static class TokenizerMapper 

extends Mapper<Object, Text, Text, IntWritable>{ 

//one 表 示 单 词 出 现 一 次 

private final static IntWritable one=new Intwritable (1) ; 

//word 用 于 存储 切 下 的 单词 

private Text word=new Text () ; 

public void map (Object key, Text value, Context context) throws 
IOException, 

InterruptedException{ 

StringTokenizer itr=new StringTokenizer (value.toString () ) ; // 
对 输入 的 行 切 词 

while (itr.hasMoreTokens () ) { 

word.set (itr.nextToken () ) ; // 切 下 的 单词 存 入 word 

context .write (word, one) ; 

} 

} 

} 

// 继 承 Reducer 接 口 ， 设 置 Reduce 的 输入 类 型 为 <Text,，Intwritable> 

// 输 出 类 型 为 <Text,，Intwritable> 

public static class IntSumReducer extends Reducer <Text, 
Intwritable, Text, IntWritable>{ 


//result 记 录 单 词 的 频数 

private IntWritable result=new IntWritable () ; 

public void reduce (Text key, Iterable<IntWritable>values, 
Context context) 

throws IOException, InterruptedException{ 

int sum=0; 

// 对 获取 的 <key，Vvalue-1List> 计 算 value 的 和 

for (IntWritable val: values) { 

sum+=val.get () ; 


} 

// 将 频数 设置 到 result 中 
result.set (sum) ; 
// 收 集结 果 
context .write (key, result) ; 
} 

} 


public static void main (String[]args) throws Exception{ 

Configuration conf=new Configuration () ; 

// 检 查 运行 命令 

String[]otherArgs=new GenericOptionsParser (conf, 
args) .getRemainingArgs () ; 

if (otherArgs.length! =2) { 

System.err.println ("Usage: wordcount<in><out>") ; 

System.exit (2) ; 

} 
// 配 置 作业 名 
Job job=new Job (conf, "word count") ; 
// 配 置 作业 的 各 个 类 
job.setJarByClass (WordCount.class) ; 
job.setMapperClass (TokenizerMapper.class) ; 
job.setCombinerClass (IntSumReducer.class) ; 
job.setReducerClass (IntSumReducer.class) ; 
job.setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (IntWritable.class) ; 
FileInputFormat.addInputPath (job, new Path (otherArgs[0]) ) ; 
FileOutputFormat.setOutputPath (job, new Path (otherArgs[1]) ) ; 
System.exit (job.waitForCompletion (true) ?0: 1) ; 
} 
} 


5.1.4 代码 解读 


WordCount 程 序 在 Map 阶 段 接收 输入 的 <key, value > (key 是 当前 
输入 的 行 号 ，value 是 对 应 行 的 内 容 ) ， 然 后 对 此 行内 容 进行 切 词 ， 
切 下 一 个 词 就 将 其 组 织 成 <word，1> 的 形式 输出 ， 表 示 word 出 现 了 


一 次 。 


在 Reduce 阶 段 ，TaskTracker 会 接收 到 < word，{1，1，1，1...} 
> 形式 的 数据 ， 也 残 是 特定 单词 及 其 出 现 次 数 的 情况 ， 其 中 “1 表示 
word 的 频数 。 所 以 Reduce 每 接受 一 个 <word, {1, 1, 1, 1......}>， 
就 会 在 word 的 频数 上 加 1， 最 后 组 织 成 <word, sum> 的 形式 直接 输 


出 。 


5.1.5 程序 执行 


运行 条 件 : 将 WordCount.java 文 件 放 在 Hadoop 安 装 目 孙 下 ， 并 在 
目 孙 下 创建 输入 目 了 永 input， 目 了 永 下 有 输入 文件 file1、fe2。 其 中 : 


filel HA Ave: 

hello world 
file2 的 内 容 是 : 
hello hadoop 


hello mapreduce 


准备 好 之 后 在 命令 行 输入 命令 运行 。 下 面 对 执 行 的 命令 进行 介 
1) 在 集群 上 创建 输入 文件 夹 : 
bin/hadoop fs-mkdir wordcount_input 
2) 上 传 本 地 目录 input 下 前 四 个 字符 为 匀 e 的 文件 到 集群 上 的 input 


Axx FE: 


bin/hadoop fs-put input/file*wordcount_input 


3) 编译 WordCount.java 程 序 ， 将 结果 放 入 当前 目录 的 WordCount 
HX F: 


javac-classpath hadoop-1.0.1-core.jar: lib/commons-cli-1.2.jar-d 
WordCount WordCount.java 


4) 将 编译 结果 打 成 Jar 包 : 


jar-cvf wordcount.jar-C WordCount. 


5) 在 集群 上 运行 WordCount 程 序 ， 以 input 目 录 作 为 输入 目录 ， 
output 目 隶 作 为 输出 目 隶 : 


bin/hadoop jar wordcount.jar WordCount wordcount_input 
wordcount_output 


6) 查看 输出 结果 : 


bin/hadoop fs-cat wordcount_output/part-r-00000 


5.1.6 ”代码 结果 


运行 结 采 如 下 : 


hadoop 1 
hello 3 
mapreduce 1 
world 1 


5.1.7 ”代码 数据 流 


WordCount 程 序 是 最 简单 也 是 最 具 代 表 性 的 MapReduce 框 架 程序 ， 
下 面 再 基于 上 例 给 出 MapReduce 程 序 执行 过 程 中 详细 的 数据 流 。 


首先 在 MapReduce 程 序 启动 阶段 ，JobTracker 先 将 Job 的 输入 文件 
分 割 到 每 个 Map Task 上 。 假 设 现在 有 两 个 Map Task， 一 个 Map Task 一 
TOAS 


接 下 来 MapReduce 启 动 Job， 每 个 Map Task 在 启动 之 后 会 接收 到 自 
己 所 分 配 的 输入 数据 ， 针 对 此 例 (采用 默认 的 输入 方式 ， 每 一 次 读 入 
一 行 ，key 为 行 首 在 文件 中 的 偏 移 量 ，value 为 行 字符 串 内 容 ) ， 两 个 
Map Task 的 输入 数据 如 下 : 


<0, "hello world"> 
<0, "hello hadoop" > 
<14, "hello mapreduce" > 


Mapa TRAN Asti ol, PAs Fa BES Se A 
次 。 第 一 个 Map Task 的 Map 输 出 如 下 : 


<"hello", 1> 
<"world", 1> 


第 二 个 Map Task 的 Map 输 出 如 下 : 


<"hello", 1> 
<"hadoop", 1> 
<"hello", 1> 
<"mapreduce", 1> 


由 于 在 本 例 中 设置 了 Combiner 的 类 为 Reduce 的 class， 所 以 每 个 
Map Task 将 输出 发 送 到 Reduce 时 ， 会 先 执 行 一 次 Combiner。 这 里 的 


Combiner 相 当 于 将 结果 先 局 部 进行 合并 ， 这 样 能 够 降低 网 络 压 力 ， 提 
高 效率 。 执 行 Combiner 之 后 两 个 Map Task 的 输出 如 下 : 


Map Task1 
<"hello", 1> 
<"world", 1> 
Map Task2 
<"hello", 2> 
<"hadoop", 1> 
<"mapreduce", 1> 


接 下 来 是 MapReduce 的 shuffle 过 程 ， 对 Map 的 输出 进行 排序 合并 ， 
并 根据 Reduce 数 量 对 Map 的 输出 进行 分 割 ， 将 结果 交 给 对 应 的 


Reduce。 经 过 


过 shuffle 过 程 的 输出 也 就 是 Reduce 的 输入 如 下 : 


<"hadoop", 1> 
<"hello", <1, 2>> 
<"mapreduce", 1> 
<"world", 1> 


Reduce 接 收 到 如 上 的 输入 之 后 ， 对 每 个 <key, value-list > 进行 处 
理 ， 计 算 每 个 单词 也 就 是 key 的 出 现 总 数 。 最 后 输出 单词 和 对 应 的 频 
数 ， 形 成 整个 MapReduce 的 输出 ， 内 容 如 下 : 


‘hadoop", 1> 
'hello", 3> 
'‘mapreduce", 1> 
'world", 1> 


AAAA 


WordCount 虽 然 简 单 ， 但 具有 代表 性 ， 也 在 一 定 程 度 上 反映 了 
MapReduce 设 计 的 初衷 一 对 日 志文 件 的 分 析 。 项 望 这 里 的 详细 分 析 能 
对 大 家 有 所 帮助 。 


5.2 ”数据 去 重 


数据 去 重 这 个 实例 主要 是 为 了 让 读者 掌握 并 利用 并 行 化 思想 对 数 
据 进 行 有 意义 的 沛 选 。 统 计 大 数据 集 上 的 数据 种 类 个 数 、 从 网 站 日 志 
中 计算 访问 地 等 这 些 看 似 庞杂 的 任务 都 会 涉及 数据 去 重 。 下 面 束 进入 
这 个 实例 的 MapReduce 程 序 设计 。 


5.2.1 实例 描述 


对 数据 文件 中 的 数据 进行 去 重 。 数 据 文件 中 的 每 行 都 是 一 个 数 
据 。 


样 例 输 入 : 


2006-6-11 
样 例 输出 : 
2006-6-10 
2006-6-10 
2006-6-11 
2006-6-11 
2006-6-12 
2006-6-13 
2006-6-14 
2006-6-14 
2006-6-15 
2006-6-15 
2006-6-9 a 
2006-6-9 b 


O 
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5.2.22 ”设计 思路 


数据 去 重 实例 的 最 终 目 标 是 让 原始 数据 中 出 现 次 数 超过 一 次 的 数 
据 在 输出 文件 中 只 出 现 一 次 。 我 们 自然 而 然 会 想到 将 同一 个 数据 的 所 
有 记录 都 交 给 一 台 Reduce 机 器 ， 无 论 这 个 数据 出 现 多 少 次 ， 只 要 在 最 
终结 果 中 输出 一 次 就 可 以 了 。 具 体 就 是 Reduce 的 输入 应 该 以 数据 作为 
key， 而 对 value-list 则 没有 要 求 。 当 Reduce 接 收 到 一 个 < key, value-list 
> 时 就 直接 将 key 复 制 到 输出 的 key 中 ， 并 将 value 设 置 成 空 值 。 在 
MapReduce 流 程 中 ，Map 的 输出 < key, value> 经 过 shuffle 过 程 聚 集成 < 
key, value-list > 后 会 被 交 给 Reduce。 所 以 从 设计 好 的 Reduce 输 入 可 以 
反 推 出 Map 输 出 的 key 应 为 数据 ， 而 value 为 任意 值 。 继 续 反 推 ，Map 输 
出 的 key 为 数据 。 而 在 这 个 实例 中 每 个 数据 代表 输入 文件 中 的 一 行内 
容 ， 所 以 Map 阶 段 要 完成 的 任务 就 是 在 采用 Hadoop 默 认 的 作业 输入 方 
式 之 后 ， 将 value 设 置 成 key， 并 直接 输出 (输出 中 的 value 任 意 ) 。 
Map 中 的 结果 经 过 shuffle 过 程 之 后 被 交 给 Reduce。 在 Reduce 阶 段 不 管 
每 个 key 有 多 少 个 value， 都 直接 将 输入 的 key 复 制 为 输出 的 key， 并 输出 
就 可 以 了 (输出 中 的 value 被 设置 成 空 ) 。 


因为 此 程序 简单 且 执 行 步骤 与 单词 计数 实例 完全 相同 ， 所 以 不 再 
资 述 ， 下 面 只 给 出 程序 。 


5.2.3 ”程序 代码 


程序 代码 如 下 : 


package cn.edu.ruc.cloudcomputing.book.chapter05; 

import java.io.IOException; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce. Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce. Reducer; 

import org.apache.hadoop.mapreduce.1lib.input.FileInputFormat; 


import org.apache.hadoop.mapreduce.1ib.output.FileOutputFormat; 


import org.apache.hadoop.util.GenericOptionsParser; 
public class Dedup{ 
//map 将 输入 中 的 value 复 制 到 输出 数据 的 key 上 ， 并 直接 输出 


public static class Map extends Mapper<Object, Text, Text, Text 


>{ 


private static Text line=new Text () ; 


public void map (Object key, Text value, Context context) throws 


IOException, 
InterruptedException{ 
line=value; 
context.write (line, new Text ("") ) ; 


} 


} 

//reduce 将 输入 中 的 key 复 制 到 输出 数据 的 key 上 ， 并 直接 输出 

public static class Reduce extends Reducer<Text, Text, Text, 
Text >{ 

public void reduce (Text key, Iterable<Text>values, Context 
context) throws 

IOException, InterruptedException{ 

context.write (key, new Text ("") ) ; 

} 

} 


public static void main (String[]args) throws Exception{ 
Configuration conf=new Configuration () ; 
String[ ]JotherArgs=new GenericOptionsParser (conf, 

args) .getRemainingArgs () ; 


if (otherArgs.length! =2) { 

System.err.println ("Usage: wordcount<in><out>") ; 
System.exit (2) ; 

} 

Job job=new Job (conf, "Data Deduplication") ; 
job.setJarByClass (Dedup.class) ; 

job.setMapperClass (Map.class) ; 

job.setCombinerClass (Reduce.class) ; 

job.setReducerClass (Reduce.class) ; 

job.setOutputKeyClass (Text.class) ; 

job.setOutputValueClass (Text.class) ; 
FileInputFormat.addInputPath (job, new Path (otherArgs[@]) ) ; 
FileOutputFormat.setOutputPath (job, new Path (otherArgs[1]) ) ; 
System.exit (job.waitForCompletion (true) ?0: 1) ; 

} 

} 


5.3 HEF 


数据 排序 是 许多 实际 任务 在 执行 时 要 完成 的 第 一 项 工作 ， 比 如 学 
生成 绩 评比 、 数 据 建 立 索 引 等 。 这 个 实例 和 数据 去 重 类 似 ， 都 是 先 对 
原始 数据 进行 初步 处 理 ， 为 进一步 的 数据 操作 打 好 基础 。 下 面 进入 这 
个 实例 。 


5.3.1 SETH aut 


对 输入 文件 中 的 数据 进行 排序 。 输 入 文件 中 的 每 行内 容 均 为 一 个 
数 子 ， 即 一 个 数据 。 要 求 在 输出 中 每 行 有 两 个 间隔 的 数字 ， 其 中 ， 第 
二 个 数字 代表 原始 数据 ， 第 一 个 数字 代表 这 个 原始 数据 在 原始 数据 集 
EUR 


样 例 输入 : 


Ol N 
A O 


EF 例 输出 : 
2 

6 

15 

22 

26 

32 

32 

54 

92 

9 650 
1 654 
12 756 
5956 
14 65223 


BPEOONODAURWNE YEO 


m 
ce) 


5.3.2 ”设计 思路 


这 个 实例 仅仅 要 求 对 输入 数据 进行 排序 ， 熟 悉 MapReduce 过 程 的 
读者 很 快 会 想到 在 MapReduce 过 程 中 就 有 排序 。 是 否 可 以 利用 这 个 默 
认 的 排序 、 而 不 需要 自己 再 实现 具体 的 排序 呢 ? 答案 是 肯定 的 。 但 是 
在 使 用 之 前 首先 要 了 解 MapReduce 过 程 中 的 默认 排序 规则 。 它 是 按照 
key 值 进行 排序 ， 如 果 key 为 封装 int 的 IntWritable 类 型 ， 那 么 MapReduce 
按照 数字 大 小 对 key 排 序 ， 如 果 key 为 封装 String 的 Text 类 型 ， 那 么 
MapReduce 按 照 字典 顺序 对 字符 串 排 序 。 需 要 注意 的 是 ，Reduce 目 动 
排序 的 数据 仅仅 是 发 送 到 自己 所 在 节点 的 数据 ， 使 用 默认 的 排序 并 不 
能 保证 全 局 的 顺序 ， 因 为 在 排序 前 还 有 一 个 partition 的 过 程 ， 默 认 无 法 
保证 分 割 后 各 个 Reduce 上 的 数据 整体 是 有 序 的 。 所 有 要 想 使 用 默认 的 
排序 过 程 ， 还 必须 定义 自己 的 Partition 类 ， 保 证 执行 Partition 过 程 之 后 
所 有 Reduce 上 的 数据 在 整体 上 是 有 序 的 ， 然 后 再 对 局 部 Reduce 上 的 数 
据 进行 默认 排序 ， 这 样 才 能 保证 所 有 数据 有 序 。 了 解 了 这 个 细 市 ， 我 
们 就 知道 ， 首 先 应 该 使 用 封装 int 的 IntWritable 型 数据 结构 ， 也 就 是 将 
读 入 的 数据 在 Map 中 转化 成 IntWritable 型 ， 然 后 作为 key 值 输出 (value 
任意 ) ; 其 次 需要 重 写 partition 类 ， 保 证 整体 有 序 ， 具 体 做 法 是 用 输入 
数据 的 最 大 值 除 以 系统 partition 数 量 的 商 作 为 分 割 数 据 的 边界 增 量 ， 也 
就 是 说 分 割 数据 的 边 弄 为 此 商 的 1 倍 、2 倍 至 numPartitions-1 倍 ， 这 样 残 


能 保证 执行 partition 后 的 数据 是 整体 有 序 的 ， 然 后 Reduce 获 得 < key, 

value-list> 之 后 ， 根 据 value-list 中 元 素 的 个 数 将 输入 的 Key 作为 value 的 
输出 次 数 ， 输 出 的 key 是 一 个 全 局 变量 ， 用 于 统计 当前 key 的 位 次 。 需 
要 注意 的 是 ， 这 个 程序 中 没有 配置 Combiner， 也 就 是 说 在 MapReduce 
过 程 中 不 使 用 Combiner。 这 主要 是 因为 使 用 Map 和 Reduce 束 已 经 能 够 
完成 任务 了 。 


由 于 此 程序 简单 且 执 行 步骤 与 单词 计数 实例 完全 相同 ， 所 以 不 再 
资 述 ， 下 面 只 给 出 程序 。 


5.3.3 ”程序 代码 


程序 代码 如 下 : 


package cn.edu.ruc.cloudcomputing.book.chapter05; 
java.io.IOException; 


import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
public 


org. 
org. 


org 


org. 
org. 


org 


org. 
org. 


org 


org. 
org. 


apache. 
apache. 
„apache. 
apache. 
apache. 
„apache. 
apache. 
apache. 
„apache. 
apache. 
apache. 
class Sort{ 


hadoop. 
hadoop. 
hadoop. 
hadoop. 
.mapreduce. Job; 

.mapreduce. Mapper; 

.mapreduce. Reducer; 

.mapreduce. 1lib.input.FileInputFormat; 
.mapreduce.1lib.output.FileOutputFormat; 
hadoop. 
.mapreduce.Partitioner; 


hadoop 
hadoop 
hadoop 
hadoop 
hadoop 


hadoop 


conf .Configuration; 
fs.Path; 
io.IntwWritable; 
io.Text; 


util.GenericOptionsParser; 


//map 将 输入 中 的 value 转 化 成 Intwritable 类 型 ， 作 为 输出 的 key 

public static class Map extends Mapper<Object, Text, 
IntwWritable, 

private static IntWritable data=new IntwWritable () ; 

public void map (Object key, Text value, Context context) throws 
IOException, 

InterruptedException{ 

String line=value.toString () ; 

data.set (Integer.parseInt (line) ) ; 

context.write (data, new IntWritable (1) ) ; 


J 


} 
//reduce 将 输入 的 key 复 和 


Intwritable> { 


判 到 输出 的 value 上 ， 人 然后 根据 输入 的 


//value-1ist 中 元 素 的 个 数 决定 key 的 输出 次 数 


// 用 全 局 linenum 来 代表 key 的 位 次 
public static class Reduce extends Reducer <Intwritable, 
IntWritable, 
Intwritable> { 
private static IntWritable linenum=new IntWritable (1) ; 
public void reduce (IntwWritable key, Iterable<Intwritable> 
values, Context 
context) throws IOException, InterruptedException{ 
for (Intwritable val: values) { 


Intwritable, 


context.write (linenum, key) ; 
linenum=new IntWritable (linenum.get () +1) ; 
} 
} 
// 自 定义 Partition 函 数 ， 此 函数 根据 输入 数据 的 最 大 值 和 MapReduce 框 架 中 
//Partition 的 数量 获取 将 输入 数据 按照 大 小 分 块 的 边界 ， 然 后 根据 输入 数值 和 
// 边 界 的 关系 返回 对 应 的 Partition ID 
public static class Partition extends Partitioner<IntWritable, 
IntWritable> { 
@Override 
public int getPartition (IntWritable key, IntWritable value, int 
numPartitions) { 
int Maxnumber=65223; 
int bound=Maxnumber/numPartitions+1; 
int keynumber=key.get () ; 
for (int i=0; i<numPartitions; i++) { 
if (keynumber <bound*i& &keynumber >=bound* (i-1) ) 
return i-1; 
} 
return-1; 
} 
} 
public static void main (String[]args) throws Exception{ 
Configuration conf=new Configuration () ; 
String[]otherArgs=new GenericOptionsParser (conf, 
args) .getRemainingArgs () ; 
if (otherArgs.length! =2) { 
System.err.println ("Usage: wordcount<in><out>") ; 
System.exit (2) ; 
} 
Job job=new Job (conf, "Sort") ; 
job.setJarByClass (Sort.class) ; 
job.setMapperClass (Map.class) ; 
job.setReducerClass (Reduce.class) ; 
job.setPartitionerClass (Partition.class) ; 
job.setOutputKeyClass (IntWritable.class) ; 
job.setOutputValueClass (IntWritable.class) ; 
FileInputFormat.addInputPath (job, new Path (otherArgs[@]) ) ; 
FileOutputFormat.setOutputPath (job, new Path (otherArgs[1]) ) ; 
System.exit (job.waitForCompletion (true) ?0: 1) ; 
} 
} 


5.4 单 表 关联 


前 面 的 实例 都 是 在 数据 上 进行 一 些 位 单 的 处 理 ， 为 进一步 的 操作 
打 基 础 。 单 表 关 联 这 个 实例 要 求 从 给 出 的 数据 中 寻找 出 所 关心 的 数 
据 ， 它 是 对 原始 数据 所 包含 信息 的 挖 握 。 下 面 进 入 这 个 实例 。 


5.4.1 实例 描述 


实例 中 给 出 child-parent 表 ， 要 求 输出 grandchild-grandparent 表 。 
样 例 的 输入 : 


file: 

child parent 
Tom Lucy 

Tom Jack 
Jone Lucy 
Jone Jack 
Lucy Mary 
Lucy Ben 
Jack Alice 
Jack Jesse 
Terry Alice 
Terry Jesse 
Philip Terry 
Philip Alma 
Mark Terry 
Mark Alma 


样 例 输出 为 : 


file: 
grandchild grandparent 
Tom Alice 
Tom Jesse 
Jone Alice 
Jone Jesse 
Tom Mary 

Tom Ben 

Jone Mary 
Jone Ben 
Philip Alice 
Philip Jesse 
Mark Alice 
Mark Jesse 


5.42 ”设计 思路 


分 析 这 个 实例 ， 显 然 需要 进行 单 表 连接 ， 连 接 的 是 左 表 的 parent 列 
和 石 表 的 child 列 ， 且 左 表 和 右 表 是 同一 个 表 。 连 接 结果 中 除去 连接 的 
两 列 就 是 所 需要 的 结果 一 grandchild-grandparent 表 。 要 用 MapReduce 实 
现 这 个 实例 ， 首 先 要 考虑 如 何 实现 表 的 自 连接 ， 其 次 就 是 连接 列 的 设 
置 ， 最 后 是 结果 的 整理 。 考 虑 到 MapReduce 的 shuffle 过 程 会 将 相同 的 
key 值 放 在 一 起 ， 所 以 可 以 将 Map 结 果 的 key 值 设置 成 待 连接 的 列 ， 然 
后 列 中 相同 的 值 自然 就 会 连接 在 一 起 了 。 再 与 最 开始 的 分 析 联 系 起 
来 : 要 连接 的 是 左 表 的 parent 列 和 右 表 的 child 列 ， 且 左 表 和 右 表 是 同一 
个 表 ， 所 以 在 Map 阶 段 将 读 入 数据 分 割 成 child 和 parent 之 后 ， 会 将 
parent 设 置 为 key, child 设 置 为 value 进 行 输出 ， 作 为 左 表 ; 再 将 同一 对 
child 和 parent 中 的 child 设 置 成 key, parent 设 置 成 value 进 行 输出 ， 作 为 右 
表 。 为 了 区 分 输出 中 的 左右 表 ， 需 要 在 输出 的 value 中 再 加 上 左右 表 信 
筷 ， 比 如 在 value 的 String 最 开始 处 加 上 字符 1 表示 左 表 、 字 符 2 表 示 右 
表 。 这 样 在 Map 的 结果 中 就 形成 了 左 表 和 右 表 ， 然 后 在 shuffle 过 程 中 
完成 连接 。 在 Reduce 接 收 到 的 连接 结果 中 ， 每 个 key 的 value-list 就 包含 
了 grandchild 和 grandparent 关 系 。 取 出 每 个 key 的 value-list 进 行 解析 ， 将 
左 表 中 的 child 放 入 一 个 数组 ， 右 表 中 的 parent 放 入 一 个 数组 ， 然 后 对 两 
个 数组 求 笛 卡 儿 积 就 是 最 后 的 结果 了 。 


在 设计 思路 中 已 经 包含 了 对 程序 的 分 析 ， 而 其 程序 执行 步 又 也 与 
单词 计数 实例 完全 相同 ， 所 以 代码 解读 和 程序 执行 不 再 资 述 ， 下 面 只 
给 出 程序 。 


5.4.3 ”程序 代码 


ER, 


>{ 


程序 代码 如 下 : 


package cn.edu.ruc.cloudcomputing.book.chapter05; 

import java.io.IOException; 

import java.util.*; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce. Job; 

import org.apache.hadoop.mapreduce. Mapper; 

import org.apache.hadoop.mapreduce. Reducer; 

import org.apache.hadoop.mapreduce.1lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.1ib.output.FileOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 

public class STjoin{ 

public static int time=0; 

//Map 将 输入 分 割 成 child 和 parent， 然 后 正 序 输出 一 次 作为 右 表 ， 反 序 输出 一 次 作为 
需要 注意 

的 是 在 输出 的 value 中 必须 加 上 左右 表 区 别 标志 
public static class Map extends Mapper<Object, Text, Text, Text 


public void map (Object key, Text value, Context context) throws 
IOException, InterruptedException{ 

String childname=new String () ; 

String parentname=new String () ; 

String relationtype=new String () ; 

String line=value.toString () ; 

int i=0; 

while (line.charAt (i) ! ='') { 

i++; 

l | N 
String[]values={line.substring (0, i) , line.substring (i+1) }; 
if (values[0].compareTo ("child") ! =0) 

{ 

childname=values[0]; 
parentname=values[1]; 
relationtype="1"; // 左 右 表 区 分 标志 
context.write (new Text (values[1]) , new Text (relationtype 


+"+"4childname+"+"+parentname) ) ; 

// 左 表 

relationtype="2"; 

context.write (new Text (values[0]) , new Text (relationtype 
+"4"4+childname+"+"+parentname) ) ; 

// 右 表 

} 

} 

} 


public static class Reduce extends Reducer<Text, Text, Text, 
Text >{ 

public void reduce (Text key, Iterable<Text>values, Context 
context) throws 

IOException, InterruptedException{ 

if (time==0) {// 输 出 表 头 

context.write (new Text ("grandchild") , new Text 

("grandparent") ) ; 

timet++; 

} 

int grandchildnum=0; 

String grandchild[]=new String[10]; 

int grandparentnum=0; 

String grandparent[ ]=new String[10]; 

Iterator ite=values.iterator () ; 

while (ite.hasNext () ) 

{ 

String record=ite.next () .toString () ; 

int len=record.length () ; 

int 1=2; 

if (len==0) continue; 

char relationtype=record.charAt (0) ; 

String childname=new String () ; 

String parentname=new String () ; 

// 获 取 value-1list 中 value 的 child 

while (record.charAt (i) ! ='+') 


childname=childnamet+record.charAt (i) ; 
工 十 十 ; 

} 

i=i+1; 

// 获 取 value-1list 中 value 的 parent 

while (i<len) 

{ 

parentname=parentname+record.charAt (i) ; 
工 十 十 ; 


} 
//Fex, Wttichild#A grandchild 
if (relationtype=='1') { 


grandchild[grandchildnum]=childname; 
grandchildnum++; 

} 

else{// 右 表 ， 取 出 parent 放 入 grandparent 
grandparent [grandparentnum]=parentname; 
grandparentnum++; 


} 


h 

//grandchild 和 grandparent 数 组 求 笛 卡 儿 积 

if (grandparentnum! =0& &grandchildnum! =0) { 

for (int m=0; m<grandchildnum; m++) { 

for (int n=0; n<grandparentnum; n++) { 

context.write (new Text (grandchild[m]) , new Text 
(grandparent[n]) ) ; 

// 输 出 结 采 

} 


} 


public static void main (String[]args) throws Exception{ 
Configuration conf=new Configuration () ; 
String[]otherArgs=new GenericOptionsParser (conf, 

args) .getRemainingArgs () ; 
if (otherArgs.length! =2) { 
System.err.println ("Usage: wordcount<in><out>") ; 
System.exit (2) ; 
} 
Job job=new Job (conf, "single table join") ; 
job.setJarByClass (STjoin.class) ; 
job.setMapperClass (Map.class) ; 
job.setReducerClass (Reduce.class) ; 
job.setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (Text.class) ; 
FileInputFormat.addInputPath (job, new Path (otherArgs[0]) ) ; 
FileOutputFormat.setOutputPath (job, new Path (otherArgs[1]) ) ; 
System.exit (job.waitForCompletion (true) ?0: 1) ; 
} 
} 


5.5 多 表 天 联 


5.5.1 实例 搞 述 


多 表 关 联 和 单 表 关 联 类 似 ， 它 也 是 通过 对 原始 数据 进行 一 定 的 处 
理 ， 从 其 中 挖掘 出 关心 的 信息 。 下 面 进 入 这 个 实例 。 


WAERD, PRRI) R, BEL AIMH 
列 ; 另 一 个 代表 地 址 表 ， 包 舍 地 址 名 列 和 地 址 编号 列 。 要 求 从 输入 数 
据 中 找 出 工厂 名 和 地 址 名 的 对 应 关系， 输出 工厂 名 -地 址 名 表 。 


样 例 输入 : 


factory: 

factoryname addressed 
Beijing Red Star 1 
Shenzhen Thunder 3 
Guangzhou Honda 2 
Beijing Rising 1 
Guangzhou Development Bank 2 
Tencent 3 

Bank of Beijing 1 
address: 

addressID addressname 

1 Beijing 

2 Guangzhou 

3 Shenzhen 

4 Xian 

样 例 输出 : 

factoryname addressname 
Bank of Beijing Beijing 
Beijing Red Star Beijing 


Beijing Rising Beijing 

Guangzhou Development Bank Guangzhou 
Guangzhou Honda Guangzhou 

Shenzhen Thunder Shenzhen 

Tencent Shenzhen 


5.5.2 ”设计 思路 


多 表 关 联 和 单 表 关联 相似 ， 都 类 似 于 数据 库 中 的 目 然 连接 。 相 比 
单 表 关联 ， 多 表 关 联 的 左右 表 和 连接 列 更 加 清楚 ， 因 此 可 以 采用 和 单 
表 关 联 相同 的 处 理 方 式 。 Map 识 别 出 输 入 的 行 属于 哪个 表 之 后 ， 对 其 
进行 分 割 ， 将 连接 的 列 值 保存 在 key 中 ， 男 一 列 和 左右 表 标 志保 存在 
value 中 ， 然 后 输出 。Reduce 拿 到 连接 结果 后 ， 解 析 value 内 容 ， 根 据 标 
志 将 左右 表 内 容 分 开 存 放 ， 然 后 求 笛 卡 儿 积 ， 最 后 直接 输出 。 


这 个 实例 的 具体 分 析 参 考 单 表 关联 实例 ， 下 面 给 出 代码 。 


5.5.3 ”程序 代码 


程序 代码 如 下 : 


package cn.edu.ruc.cloudcomputing.book.chapter05; 
java.io. IOException; 
java.util.*; 


import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
public 
public 
public 
>A 


org. 
org. 
org. 
org. 


org 


org. 
org. 


org 


org. 
org. 


apache. 
apache. 
apache. 
apache. 
„apache. 
apache. 
apache. 
„apache. 
apache. 
apache. 


hadoop. 
hadoop. 
hadoop. 
hadoop. 
.mapreduce. 
.mapreduce. 
.mapreduce. 
.mapreduce. 
.mapreduce. 
hadoop. 


hadoop 
hadoop 
hadoop 
hadoop 
hadoop 


class MTjoin{ 


static int time=0; 
static class Map extends Mapper<Object, 


输入 行 属于 左 表 还 是 


conf .Configuration; 


fs.Path; 


io.IntwWritable; 


io.Text; 


Job; 

Mapper; 

Reducer; 
lib.input.FileInputFormat; 
lib.output.FileOutputFormat; 


util.GenericOptionsParser; 


Text, Text, Text 


表 ， 然 后 对 两 列 值 进行 分 割 ， 


// 在 Map 中 先 区 分 


// 连 接 列 保 
public void map 
IOException, 


存在 key 值 ， 


剩余 列 和 左 


表 标 志保 存 寿 


Object key, 
InterruptedException{ 


String line=value.toString 


int i=0; 


// 输 入 文件 首 行 ， 不 处 理 


Text valu 


a 


Evalue 中 ， 最 后 输出 


e, Context context) throws 


if (line.contains ("factoryname") ==true||line.contains 


("addressID" 


return; 
} 
/ 7H Bt 


i++; 


if (line.charAt (0) 


// 左 表 


int j=i- 


中 的 分 


1; 


==true) { 


割 点 
while (line.charAt (i) 


while (line.charAt (j) ! ='') j--; 


E {line.substring (0, j) 


>='9'||line.charAt (i) <='0') { 


>='9'||line.charAt (0) <='0') { 


, line.substring (i) }; 


context.write (new Text (values[1]) , new Text 
("1+"+values[0]) ) ; 

} 

else{//H# 

int j=i+1; 

while (line.charAt (j) ! ='') j++; 

String[]values={line.substring (0, i+1) , line.substring (j) }; 

context.write (new Text (values[0]) , new Text 
("2+"4+values[1]) ) ; 


} 

} 

} 

public static class Reduce extends Reducer<Text, Text, Text, 
Text >{ 

//Reduce 解 析 Map 输 出 ， 将 value 中 数据 按照 左右 表 分 别 保 存 ， 然 后 求 // 笛 卡 儿 积 ， 
输出 


public void reduce (Text key, Iterable<Text>values, Context 
context) throws 

IOException, InterruptedException{ 

if (time==0) {// 输 出 文件 第 一 行 

context.write (new Text ("factoryname") , new Text 

("addressname") ) ; 

timet++; 

} 

int factorynum=0; 

String factory[]=new String[10]; 

int addressnum=0; 

String address[]=new String[10]; 

Iterator ite=values.iterator () ; 

while (ite.hasNext () ) 

{ 

String record=ite.next () .toString () ; 

int len=record.length () ; 

int 1=2; 

char type=record.charAt (0) ; 

String factoryname=new String () ; 

String addressname=new String () ; 

if (type=='1') {// 左 表 

factory[factorynum]=record.substring (2) ; 

factorynum++; 


} 
else{//H# 
address[addressnum]=record.substring (2) ; 
addressnum++; 

} 


} 
if (factorynum! =0&&addressnum! =0) {// 求 箔 卡 儿 积 


for (int m=0; m<factorynum; m++) { 


for (int n=0; n<addressnum; n++) { 
contextwrite(newText (factor y{[m]),new 
Text (address[n]) ) ; 


Wee Yew 


public static void main (String[]args) throws Exception{ 
Configuration conf=new Configuration () ; 
String[]otherArgs=new GenericOptionsParser (conf, 

args) .getRemainingArgs () ; 
if (otherArgs.length! =2) { 
System.err.println ("Usage: wordcount<in><out>") ; 
System.exit (2) ; 
} 
Job job=new Job (conf, "multiple table join") ; 
job.setJarByClass (MTjoin.class) ; 
job.setMapperClass (Map.class) ; 
job.setReducerClass (Reduce.class) ; 
job.setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (Text.class) ; 
FileInputFormat.addInputPath (job, new Path (otherArgs[9]) ) ; 
FileOutputFormat.setOutputPath (job, new Path (otherArgs[1]) ) ; 
System.exit (job.waitForCompletion (true) ?0: 1) ; 
} 
} 


5.6 本章 小 结 


本 章 通 过 五 个 实例 向 读者 呈现 了 如 何 使 用 MapReduce 程 序 解 决 实 
际 问题 ， 其 中 第 一 个 WordCount 实 例 是 MapReduce 的 入 [ 门 程序 ， 它 能 统 
计 出 数据 文件 中 单词 的 频数 ， 实 例 二 数据 去 重 和 实例 三 数据 排序 ， 都 
征 对 原始 数据 的 初步 操作 ， 为 进一步 进行 数据 分 析 打 下 基础 ;实例 四 
单 表 关 联 和 实例 五 多 表 关 联 征 对 数据 的 进一步 操作 ， 从 中 挖 所 有 用 的 
信息 。 虽 然 五 个 实例 相对 简单 普通 ， 但 是 都 能 利用 Hadoop 平 台 对 大 数 
据 集 进 行 并 行 处 理 ， 展 示 了 MapReduce 编 程 框架 的 魅力 所 在 。 


第 6 草 ”MapReduce 工 作 机 制 
本 章 内 容 
MapReduce 作 业 的 执行 流程 
错误 处 理 机 制 
作业 调度 机 制 
Shuffle 和 排序 
任务 执行 


本 章 小 结 


关于 MapReduce 的 准备 知识 和 应 用 案例 在 本 书 前 面 章 下 中 已 经 做 
了 详细 介绍 ， 本 章 将 从 MapReduce 作 业 的 执行 情况 、 作 业 运 行 过 程 中 
的 错误 机 制 、 作 业 的 调度 策略 、shuffle 和 排序 、 任 务 的 执行 等 几 个 方 
面 详细 讲解 MapReduce， 让 大 家 更 加 深入 地 了 解 MapReduce 的 运行 机 
制 ， 为 深入 学 习 使 用 Hadoop 和 Hadoop 子 项 目 打 下 基础 。 


6.1 MapReduce 作 业 的 执行 流程 


从 第 5 章 的 MapReduce 编 程 实例 中 可 以 看 出 ， 只 要 在 mian () 函数 
中 调用 Job 的 局 动 接 口 ， 然 后 将 程序 提交 到 Hadoop 上 ，MapReduce 作 业 
就 可 以 Hadoop 上 运行 。 另 外 ， 在 前 面 的 章节 中 也 从 Task 运 行 角度 介绍 
了 Map 和 Reduce 的 过 程 。 但 是 从 运行 “Hadoop JAR” 到 看 到 作业 运行 结 
果 ， 这 中 间 实 际 上 还 涉及 很 多 其 他 细 方 。 那 么 Hadoop 运 行 MapReduce 
作业 的 完整 步 又 是 什么 呢 ? 每 一 步 义 是 如 何 具体 实现 的 呢 ? 本 市 将 详 


细 介 绍 。 


6.1.1 MapReduce 任 务 执 行 总 流程 


通过 前 面 的 知识 我 们 知道 ， 一 个 MapReduce 作 业 的 执行 流程 是 : 
代码 编写 一 作业 配置 -作业 提交 一 Map 任务 的 分 配 和 执行 -处 理 中 间 
结果 一 Reduce 任 务 的 分 配 和 执行 -作业 完成 ， 而 在 每 个 任务 的 执行 过 
程 中 ， 双 包含 输入 准备 -任务 执行 -输出 结果 。 图 6-1 给 出 了 
MapReduce 作 业 详 细 的 执行 流程 图 。 


6-1 MapReduce 作 业 执 行 的 流程 图 


从 图 6-1 中 可 以 看 出 ，MapReduce 作 业 的 执行 可 以 分 为 11 个 步 又 ， 
涉及 4 个 独立 的 实体 。 它 们 在 MapReduce 执 行 过 程 中 的 主要 作用 是 : 


客户 端 (Client) : 编写 MapReduce 人 代码， 配置 作业 ， 提 交 作 业 ; 


JobTracker: 初始 化 作业 ， 分 配 作 业 ， 与 TaskTracker 通 信 ， 协 调整 
个 作业 的 执行 ; 


TaskTracker: 保持 与 JobTracker 的 通信 ， 在 分 配 的 数据 片段 上 执行 
Map 或 Reduce 任 务 ， 需 要 注意 的 是 ， 图 6-1 中 TaskTracker 世 点 后 的 省 略 


号 表示 Hadoop 集 群 中 可 以 包含 多 个 TaskTracker; 


HDFS: 保存 作业 的 数据 、 配 置信 息 等 ， 保 存 作 业 结 果 。 


下 面 按照 图 6-1 中 MapReduce 作 业 的 执行 流程 结合 代码 详细 介绍 各 


HX 
个 步骤 。 


6.1.2 ”提交 作业 


一 个 MapReduce 作 业 在 提交 到 Hadoop 上 之 后 ， 会 进入 完全 地 自动 
化 执行 过 程 。 在 这 个 过 程 中 ， 用 户 除了 监控 程序 的 执行 情况 和 强制 中 
止 作业 之 外 ， 不 能 对 作业 的 执行 过 程 进行 任何 干预 。 所 以 在 作业 提交 
之 前 ， 用 户 需要 将 所 有 应 该 配置 的 参数 按照 自己 的 需求 配置 完毕 。 需 
要 配置 的 主要 内 容 有 : 


程序 代码 : 这 里 主要 是 指 Map 和 Reduce 函 数 的 具体 代码 ， 这 是 一 
个 MapReduce 作 业 对 应 的 程序 必 不 可 少 的 部 分 ， 并 且 这 部 分 代码 的 逻 
辑 正 确 与 否 与 运行 结果 直接 相关 。 


Map 和 Reduce 接 口 的 配置 : 在 MapReduce 中 ，Map 接 口 需要 派生 自 
Mapper<kl1，v1，k2，v2 > 接口 ，Reduce 接 口 则 要 派生 自 Reducer< 
k2，Vv2，k3，v3>。 它 们 都 对 应 唯一 一 个 方法 ， 分 别 是 Map 函 数 和 
Reduce 函 数 ， 也 就 是 在 上 一 点 中 所 写 的 代码 。 在 调用 这 两 个 方法 时 需 
要 配置 它们 的 四 个 参数 ， 分 别 是 输入 key 的 数据 类 型 、 输 入 value 的 数 
据 类 型 、 输 出 key-value 对 的 数据 类 型 和 context 实 例 ， 其 中 输入 输出 的 
数据 类 型 要 与 继承 时 所 设置 的 数据 类 型 相同 。 还 有 一 个 要 求 是 Map 接 
口 的 输出 key-value 类 型 和 Reduce 接 口 的 输入 key-value 类 型 要 对 应 ， 因 


为 Map 输 出 组 合 value 之 后 ， 它 们 会 成 为 Reduce 的 输入 内 容 (初学 者 请 
特别 注意 ， 很 多 初学 者 编写 的 MapReduce 程 序 中 会 名 视 这 个 问题 ) 。 


输入 输出 路 径 ， 作 业 提 区 之 前 ， 还 需要 在 主 函数 中 配置 
MapReduce 作 业 在 Hadoop 和 集群 上 的 输入 路 径 和 输出 路 径 (必须 保证 输 
出 路 径 不 存在 ， 如 果 存 在 程序 会 报错 ， 这 也 是 初学 者 经 第 忽 视 的 错 
误 ) 。 具 体 的 代码 是 : 


FileInputFormat.addInputPath (job, new Path (otherArgs[0]) ) ; 
FileOutputFormat.setOutputPath (job, new Path (otherArgs[1]) ) ; 


其 他 类 型 设置 ， 比 如 调用 runJob 方 法 : SHAEE RAPHE 
Output 的 key 和 value 类 型 、 作 业 名 称 、InputFormat 和 OutputFormat 等 ， 
最 后 再 调用 JobClient 的 runJob 方 法 。 


配置 完 作 业 的 所 有 内 容 并 确认 无 误 之 后 就 可 以 运行 作业 了 ， 也 就 
执行 图 6-1 中 的 步骤 《有 具体 提交 方法 不 再 费 述 ， 请 参考 本 书 的 第 5 


如 部 


用 户 程 序 调用 JobClient 的 runJob 方 法 ， 在 提交 JobConf 对 象 之 后 ， 
runJob 方 法 会 移行 调用 JobSubmissionProtoco]l 接 口 所 定义 的 submitJob 方 
法 ， 并 将 作业 提交 给 JobTracker。 紧 接着 ，runJob 不 断 循 环 ， 并 在 循环 
中 调用 JobSubmissionProtocol 的 getTaskCompletionEvents 方 法 ， 获 取 
TaskCompletionEvent 类 的 对 象 实例 ， 了 解 作 业 的 实时 执行 情况 。 如 采 


ACME MGS TRAV at, RASA AJobTracker ° PEA , 
QF AD GAR VEL tetas, FEV, KERE UC ES RC ae Bl FS 
制 台 。 


从 上 面 介绍 的 作业 提交 的 过 程 可 以 看 出 ， 最 关键 的 是 JobClient 对 
象 中 submitJobInternal (final JobConf job) 方法 的 调用 执行 (submitJob 
O 方法 调用 此 方法 真正 执行 Job) ， 那 么 submitJobInternal 方 法 具体 
是 怎么 做 的 ? 下 面 从 submitJobInternal 的 代码 出 发 介绍 作业 提交 的 详细 

WHE (只 列举 关键 代码 ) 。 


public RunningJob submitJob (JobConf job) throws 
FileNotFoundException, 

ClassNotFoundException, InvalidJobConfException, IO0Exception{ 

// 从 JobTracker 得 到 当前 任务 的 ID 

JobID jobId=jobSubmitClient.getNewJobId () ; 

// 获 取 HDFS 路 径 : 

Path submitJobDir=new Path (jobStagingArea, jobId.toString () ) ; 

jobCopy.set ("mapreduce.job.dir", submitJobDir.toString () ) ; 

// 获 取 路 径 令 牌 

TokenCache.obtainTokensForNameNodes (jobCopy.getCredentials () , 
new Path[ ] 

{submitJobDir}, jobCopy) ; 

// 为 作业 生成 splits 

FileSystem fs=submitJobDir.getFileSystem (jobCopy) : 

LOG.debug ("Creating splits at"+fs.makeQualified 

(submitJobDir) ) ; 

int maps=writeSplits (context, submitJobDir) ; 

jobCopy.setNumMapTasks (maps) ; 

// 将 Job 的 配置 信息 写 入 JobTracker 的 作业 缓存 文件 中 

FSData0utputStream out=FileSystem.create (fs, submitSplitFile, 
new 

FsPermission (JobSubmissionFiles.JOB_FILE_PERMISSION) ) ; 

try{ 

jobCopy.writeXml (out) ; 

}finally{ 

out.close () ; 


} 

// 真 正 地 调用 JobTracker 来 提交 任务 

JobStatus status=jobSubmitClient.submitJob (jobId, 
submitJobDir.toString () , 

jobCopy.getCredentials () ) ; 


从 上 面 的 代码 可 以 看 出 ， 整 个 提交 过 程 包含 以 下 步 又 : 


1) 通过 调用 JobTracker 对 象 的 getNewJobId () 方法 从 JobTracker 
处 获取 当前 作业 的 ID 号 〈 见 图 6-1 中 的 步 又 (2) 


2) 检查 作业 相关 路 径 。 在 代码 中 获取 各 个 路 径 信息 时 会 对 作业 的 
对 应 路 径 进 行 检查 。 比 如 ， 如 采 没 有 指定 输出 目录 或 它 已 经 存在 ， 作 
业 就 不 会 被 提交 ， 并 且 会 给 MapReduce 程 序 返回 错误 信息 ;再 比如 输 
入 目录 不 存在 或 没有 对 应 令 牌 也 会 返回 错误 等 。 


3) 计算 作业 的 输入 划分 ， 并 将 划分 信息 写 入 Job.split 文 件 ， 如 果 
写 入 失败 就 会 返回 错误 。split 文 件 的 信息 主要 包括 : split 文 件 头 、split 
文件 版 本 号 、split 的 个 数 。 这 些 信息 中 每 一 条 都 会 包括 以 下 内 容 : split 
类 型 名 (默认 FileSplit) 、split 的 大 小 、split 的 内 容 (对 于 FileSplit 来 说 
是 写 入 的 文件 名 ， 此 split 在 文件 中 的 起 始 位 置 上 ) 、split 的 location 信 
息 ( 即 在 哪个 DataNode 上 ) 


4) 将 运行 作业 所 需要 的 资源 一 包括 作业 JAR 文 件 、 配 置 文件 和 计 
算 所 得 的 输入 划分 等 一 复制 到 作业 对 应 的 HDFS 上 〈 见 图 6-1 的 步骤 


@) 。 


5) 调用 JobTracker 对 象 的 submitJob () 方法 来 真正 提交 作业 ， 告 
诉 JobTracker 作 业 准 备 执行 〈 见 图 6-1 的 步骤 约 ) 。 


6.1.3 ”初始 化 作业 


在 客户 端 用 户 作 业 调用 JobTracker 对 象 的 submitJob () 方法 后 ， 
JobTracker 会 把 此 调用 放 入 内 部 的 TaskScheduler 变 量 中 ， 然 后 进行 调 
度 ， 默 认 的 调度 方法 是 JobQueueTaskScheduler， 也 就 是 FIFO 调 度 方 
式 。 当 客户 作业 被 调度 执行 时 ，JobTracker 会 创建 一 个 代表 这 个 作业 的 
JobInProgress 对 象 ， 并 将 任务 和 记录 信息 封装 到 这 个 对 象 中 ， 以 便 跟 
踪 任 务 的 状态 和 进程 。 接 下 来 JobInProgress 对 象 的 initTasks 范 数 会 对 任 
务 进行 初始 化 操作 ( 见 图 6-1 的 步 又 (5)) 。 下 面 仍然 从 initTasks 函 数 的 
代码 出 发 详细 讲解 初始 化 过 程 。 


public synchronized void initTasks () throws IOException{ 

// 从 HDFS 中 作业 对 应 的 路 径 读 取 job .sp1Lit 文 件 ， 生 成 input 

//splits 为 下 面 Map 的 划分 做 好 准备 

TaskSplitMetaInfo[]splits=createSplits (jobId) ; 

// 根 据 input split 设 置 Map Task 个 数 

numMapTasks=splits. length; 

for (TaskSplitMetaInfo split: splits) { 

NetUtils.verifyHostnames (split.getLocations () ) ; } 

// 为 每 个 Map Tasks 生 成 一 个 TaskInProgress 来 处 理 一 个 input split 

maps=new TaskInProgress[numMapTasks ] ; 

for (int i=0; i<numMapTasks; ++i) { 

inputLength+=splits[i].getInputDataLength () ; 

maps[i]=new TaskInProgress (jobId, jobFile, splits[i], 
jobtracker, conf, 

this, i, numSlotsPerMap) ; } 

if (numMapTasks>0) { 

//map task 放 入 nonRunningMapCache， 其 将 在 JobTracker 向 

//TaskTracker 分 配 Map Task 的 时 候 使 用 

nonRunningMapCache=createCache (splits, maxLevel) ; 


} 
// 创 建 Reduce Task 


this.reduces=new TaskInProgress[numReduceTasks ] ; 

for (int i=0; i<numReduceTasks; i++) { 

reduces[i]=new TaskInProgress (jobId, jobFile, numMapTasks, i, 
jobtracker, 

conf, this, numSlotsPerReduce) ; 

//Reduce Task 放 入 nonRunningReduces， {将 在 JobTracker 问 

//TaskTracker 分 配 Reduce Task 的 时 候 使 用 

nonRunningReduces.add (reduces[i]) ; 

} 

// 清 理 Map 和 Reduce 

cleanup=new TaskInProgress[2]; 

TaskSplitMetaInfo emptySplit=JobSplit .EMPTY_TASK_SPLIT; 

cleanup[@]=new TaskInProgress (jobId, jobFile, emptySplit, 
jobtracker, conf, 

this, numMapTasks) ; 

cleanup[@].setJobCleanupTask () ; 

cleanup[1]=new TaskInProgress (jobId, jobFile, numMapTasks, 
numReducetTasks, 

jobtracker, conf, this, 1) ; 

cleanup[1].setJobCleanupTask () ; 

// 创 建 两 个 初始 化 Task， 一 个 初始 化 Map， 一 个 初始 化 Reduce 

setup=new TaskInProgress[2]; 

setup[0]=new TaskInProgress (jobId, jobFile, emptySplit, 
jobtracker, conf, 

this, numMapTasks+1, 1) ; 

setup[0].setJobSetupTask () ; 

setup[1]=new TaskInProgress (jobId, jobFile, numMapTasks, 
numReduceTasks+1, 

jobtracker, conf, this, 1) ; 

setup[1].setJobSetupTask () ; 

tasksInited=true; // 初 始 化 完毕 


从 上 面 的 代码 可 以 看 出 初始 化 过 程 主要 有 以 下 步 又 : 


1) 从 HDFS 中 读 取 作业 对 应 的 job.split 〈 见 图 6-1 的 步骤 DO) ° 
JobTracker 从 HDFS 中 作业 对 应 的 路 径 获取 JobClient 在 步骤 9) 中 写 入 的 
job.split 文 件 ， 得 到 输入 数据 的 划分 信息 ， 为 后 面 初始 化 过 程 中 Map 任 
务 的 分 配 做 好 准备 。 


2) 创建 并 初始 化 Map 任 务 和 Reduce 任 务 。initTasks 先 根据 输入 数 
据 划 分 信息 中 的 个 数 设 定 Map Task 的 个 数 ， 然 后 为 每 个 Map Task 生 成 
一 个 TaskInProgress 来 处 理 input split， 并 将 Map Task 放 入 
nonRunningMapCache， 以 便 在 JobTracker 回 TaskTracker 分 配 Map Task 
的 时 候 使 用 。 接 下 来 根据 JobConf 中 的 mapred.reduce.tasks 属 性 利用 
setNumReduceTasks () 方法 来 设置 reduce task 的 个 数 ， 然 后 采用 类 似 
Map Task 的 方式 将 Reduce Task 放 入 nonRunningReduces 中 ， 以 便 问 
TaskTracker 分 配 Reduce Task 时 使 用 。 


3) 最 后 就 是 创建 两 个 初始 化 Task， 根 据 个 数 和 输入 划分 已 经 配置 
的 信息 ， 并 分 别 初 始 化 Map 和 Reduce。 


6.1.4 ”分配 任务 


在 前 面 的 介绍 中 我 们 已 经 知道 ，TaskTracker 和 JobTracker 之 间 的 通 
信和 和 任务 的 分 配 是 通过 心跳 机 制 完成 的 。TaskTracker 作 为 一 个 单独 的 
JVM 执 行 一 个 简单 的 循环 ， 主 要 实现 每 隔 一 段 时 间 癌 JobTracker 发 送 心 
跳 (Heartbeat) : 告诉 JobTracker 此 TaskTracker 是 否 存活 ， 是 否 准 备 执 
行 新 的 任务 。JobTracker 接 收 到 心跳 信息 ， 如 果 有 待 分 配 任 务 ， 它 就 会 
为 TaskTracker 分 配 一 个 任务 ， 并 将 分 配 信息 封装 在 心跳 通信 的 返回 值 
中 返回 给 TaskTracker。TaskTracker 从 心跳 方法 的 Response 中 得 知 此 
TaskTracker 需 要 做 的 事情 ， 如 有 果 是 一 个 新 的 Task 则 将 它 加 入 本 机 的 任 
务 队列 中 〈 见 图 6-1 的 步骤 CD) 。 


下 面 从 TaskTracker 中 的 transmitHeartBeat () 方法 和 JobTracker 中 
的 heartbeat () 方法 的 主要 代码 出 发 ， 介 绍 任务 分 配 的 详细 过 程 ， 以 
及 在 此 过 程 中 TaskTracker 和 JobTracker 的 通信 。 


TaskTracker 中 transmitHeartBeat () 方法 的 主要 代码 : 


// 向 JobTracker 报 告 TaskTracker 的 当前 状态 

if (status==null) { 

synchronized (this) { 

status=new TaskTrackerStatus (taskTrackerName, localHostname, 
httpPort, cloneAndRe 

setRunningTaskStatuses (sendCounters) , failures, maxMapSlots, 
maxReduceSlots) ; 


} 


// 根 据 条 件 是 否 满足 来 确定 此 TaskTracker 是 否 请 求 JobTracker 

// 为 其 分 配 新 的 Task 

boolean askForNewTask; 

long localMinSpaceStart; 

synchronized (this) { 

askForNewTask= (status.countMapTasks () <maxCurrentMapTasks| | 

status.countReduceTasks () <maxCurrentReduceTasks) && 
acceptNewTasks; 

localMinSpaceStart=minSpaceStart; 


// 向 JobTracker 发 送 heartbeat 

HeartbeatResponse heartbeatResponse=jobClient.heartbeat (status, 
justStarted, 

justInited, askForNewTask, heartbeatResponseld) ; 


JobTracker'Hheartbeat () 方法 的 主要 代码 : 


// 如 果 TaskTracker 向 JobTracker 请 求 一 个 Task 运 行 

if (recoveryManager.shouldSchedule () &&acceptNewTasks&& ! 
isBlacklisted) { 

TaskTrackerStatus taskTrackerStatus=getTaskTracker 

(trackerName) ; 

if (taskTrackerStatus==null) { 

LOG.warn ("Unknown task tracker polling; 
ignoring: "+trackerName) ; 

selse{ 

List <Task>tasks=getSetupAndCleanupTasks (taskTrackerStatus) ; 

if (tasks==null) { 

// 任 务 调 度 器 分 配 任务 

tasks=taskScheduler .assignTasks (taskTrackers.get 

(trackerName) ) ; 

} 

if (tasks! =null) { 

for (Task task: tasks) { 

// 将 任务 返回 给 TaskTracker 

expireLaunchingTasks.addNewTask (task.getTaskID () ) ; 

actions.add (new LaunchTaskAction (task) ) ; 


上 面 两 段 代码 展示 了 TaskTracker 和 JobTracker 之 间 通 过 心跳 通信 汇 
报 状 态 与 分 配 任 务 的 详细 过 程 。TaskTracker 首 先 发 送 自己 的 状态 ( 主 
要 是 Map 任 务 和 Reduce 任 务 的 个 数 是 否 小 于 上 限 ) ， 并 根据 自身 条 件 
选择 是 否 向 JobTracker 请 求 新 的 Task， 最 后 发 送 心跳 。JobTracker 接 收 
到 TaskTracker 的 心跳 后 首先 分 析 心 跳 信息 ， 如 果 发 现 TaskTracker 在 请 
求 一 个 Task， 那 么 任务 调度 右 束 会 将 任务 和 任务 信息 封 狐 起 来 返回 给 


TaskTracker ° 


针对 Map 任 务 和 Reduce 任 务 ，TaskTracker 有 固定 数量 的 任务 模 
(Map 任 务 和 Reduce 任 务 的 个 数 都 有 上 限 ) 。 当 TaskTracker 从 
JobTracker 返 回 的 心跳 信息 中 获取 新 的 任务 信息 时 ， 它 会 将 Map 任 务 或 
者 Reduce 任 务 加 入 对 应 的 任务 槽 中 。 需 要 注意 的 是 ， 在 JobTracker 为 
TaskTracker 分 配 Map 任 务 时 ， 为 了 减 小 网 络 带宽 ， 会 考虑 将 map 任 务 数 
据 本 地 化 。 它 会 根据 TaskTracker 的 网 络 位 置 ， 选 取 一 个 距离 此 
TaskTracker map 任 务 最 近 的 输入 划分 文件 分 配给 此 TaskTracker。 最 好 
的 情况 是 ， 划 分 文件 就 在 TaskTracker 本 地 (TaskTracker 往 往 是 运行 
HDFS 的 DataNode 中 ， 所 以 这 种 情况 是 存在 的 ) 


Rt 


6.1.5 ”执行 任务 


TaskTracker 申 请 到 新 的 任务 之 后 ， 束 要 在 本 地 运行 任务 了 。 运 行 
任务 的 第 一 步 是 将 任务 本 地 化 (将 任务 运行 所 必需 的 数据 、 配 置信 
息 、 程 序 代 码 从 HDFS 复 制 到 TaskTracker 本 地 ， 见 图 6-1 的 步骤 @) 。 
这 主要 是 通过 调用 localizeJob () 方法 来 完成 的 (此 方法 的 具体 代码 并 
NEAR, DAH) 。 这 个 方法 主要 通过 下 面 儿 个 步 又 来 完成 任务 的 
本 地 化: 


1) 将 job.split 复 制 到 本 地 ，; 

2) 将 job.jar 复 制 到 本 地 ，; 

3) 将 job 的 配置 信息 写 入 job.xml; 
4) 创建 本 地 任务 目录 ， 解 压 job.jar; 


5) 调用 launchTaskForJob () 方法 发 布 任务 〈 见 图 6-1 的 步骤 


任务 本 地 化 之 后 ， 就 可 以 通过 调用 launchTaskForJob () 真正 启动 
起 来 。 接 下 来 launchTaskForJob () 又 会 调用 launchTask () 方法 启动 
任务 。launchTask () 方法 的 主要 代码 如 下 : 


// 创 建 Task 本 地 运行 目录 

localizeTask (task) ; 

if (this.taskStatus.getRunState () 
==TaskStatus.State.UNASSIGNED) { 

this.taskStatus.setRunState (TaskStatus.State.RUNNING) ; 


} 

// 创 建 并 启动 TaskRunner 

this.runner=task.createRunner (TaskTracker.this, this) ; 
this.runner.start () 

this.taskStatus.setStartTime (System.currentTimeMillis () ) ; 


从 代码 中 可 以 看 出 launchTask () 方法 会 先 为 任务 创建 本 地 目 
录 ， 然 后 启动 TaskRunner。 在 启动 TaskRunner 后 ， 对 于 Map 任 务 ， 会 启 


动 MapTaskRunner; 对 于 Reduce 任 务 则 启动 ReduceTaskRunner。 


之 后 ，TaskRunner 又 会 启动 新 的 Java 虚 拟 机 来 运行 每 个 任务 ( 见 
图 6-1 的 步骤 40) 。 以 Map 任 务 为 例 ， 任 务 执 行 的 简单 流程 是 : 


1) 配置 任务 执行 参数 (获取 Java 程 序 的 执行 环境 和 配置 参数 


等 ) ; 


2) 在 Child 临 时 文件 表 中 添加 Map 任 务 信息 (运行 Map 和 Reduce 任 
务 的 主 进程 是 Child 类 ) ; 


3) 配置 log 文 件 夹 ， 然 后 配置 Map 任 务 的 通信 和 输出 参数 ; 


4) 读 取 input split， 生 成 RecordReader 读 取 数 据 ; 


5) 为 Map 任 务 生 成 MapRunnable， 依 次 从 RecordReader 中 接收 数 
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6) 最 后 将 Map 范 数 的 输出 调用 collect 收 集 到 MapOutputBuffer 中 
( 见 图 6-1 的 步骤 11) 。 


6.1.6 更 新 任务 执行 进度 和 状态 


在 本 章 的 作业 提交 过 程 中 我 们 曾 介绍 ， 一 个 MapReduce 作 业 在 提 
交 到 Hadoop 上 之 后 ， 会 进入 完全 地 目 动 化 执行 过 程 ， 用 户 只 能 监控 程 
序 的 执行 状态 和 强制 中 止 作业 。 但 是 MapReduce 作 业 是 一 个 长 时 间 运 
行 的 批量 作业 ， 有 时 候 可 能 需要 运行 数 小 时 。 所 以 对 于 用 户 而 言 ， 能 
够 得 知 作业 的 运行 状态 是 非常 重要 的 。 在 Linux 终 端 运行 MapReduce 作 
业 时 ， 可 以 看 到 在 作业 执行 过 程 中 有 一 些 人 简单 的 作业 执行 状态 报告 ， 
这 能 让 用 户 大 致 了 解 作 业 的 运行 情况 ， 并 通过 与 预期 运行 情况 的 对 比 
来 确定 作业 征 否 按照 预定 方式 运行 。 


在 MapReduce 作 业 中 ， 作 业 的 进度 主要 由 一 些 可 衡量 可 计数 的 小 
操作 组 成 。 比 如 在 Map 任 务 中 ， 其 任务 进度 就 是 已 处 理 输入 的 百 分 
比 ， 如 果 完 成 100 条 记录 中 的 50 条 ， 那 么 Map 任 务 的 进度 就 是 50% (这 
里 只 是 针对 一 个 Map 任 务 举例 ， 并 不 是 在 Linux 终 端 中 执行 MapReduce 
任务 时 出 现 的 Map 50%， 在 终端 中 出 现 的 50% 是 总 体 Map 任 务 的 进 
度 ， 这 是 将 所 有 Map 任 务 的 进度 组 合 起 来 的 结果 ) 。 总 体 来 讲 ， 
MapReduce 作 业 的 进度 由 下 面 儿 项 组 成 ， Mapper (或 Reducer) 读 入 或 
写 出 一 条 记录 ， 在 报告 中 设置 状态 描述 ， 增 加 计数 器 ， 调 用 Reporter 对 
象 的 progess () 方法 。 
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任务 执行 过 程 中 的 进度 组 成 事件 进行 计数 。 如 果 任 务 要 报告 进度 ， 它 
便 会 设置 一 个 标志 以 表明 状态 变化 将 会 发 送 到 TaskTracker 上 。 画 一 个 
监听 线程 检查 到 这 标志 后 ， 会 告知 TaskTracker 当 前 的 任务 状态 。 具体 
代码 如 下 (这 是 Map Task 中 run 函 数 的 部 分 代码 ) : 


// 同 TaskTracker 通 信 ， 汇报 任务 执行 进度 

TaskReporter reporter=new TaskReporter (getProgress () , 
umbilical, jvmContext) ; 

startCommunicationThread (umbilical) ; 

initialize (job, getJobID () , reporter, useNewApi) ; 


同时 ，TaskTracker 在 每 隅 5 秒 发 送 给 JobTracker 的 心路 中 封 故 任务 
状态 ， 报 告 自己 的 任务 执行 状态 。 具 体 代 码 如 下 (这 是 TaskTracker 中 
transmitHeartBeat () 方法 的 部 分 代码 ) : 


// 每 隔 一 段 时 间 ， 向 JobTracker 返 回 一 些 统计 信息 
boolean sendCounters; 

if (now> (previousUpdate+COUNTER_UPDATE_INTERVAL) ) { 
sendCounters=true; previousUpdate=now; 

} 

else{ 

sendCounters=false; 


} 


过 心跳 通信 机 制 ， 所 有 TaskTracker 的 统计 信息 都 会 汇总 到 
JobTracker 处 。JobTracker 将 这 些 统计 信息 合并 起 来 ， 产 生 一 个 全 局 作 
进度 统计 信息 ， 用 来 表明 正在 运行 的 所 有 作业 ， 以 及 其 中 所 含 任务 
的 状态 。 最 后 ，JobClient 通 过 每 秒 查看 JobTracker 来 接收 作业 进度 的 最 


新 状态 。 具 体 代码 如 下 (这 是 JobClient 中 用 来 提交 作业 的 runJob () 
方法 的 部 分 代码 ) : 


// 首 先生 成 一 个 JobClient 对 象 
JobClient jc=new JobClient (job) ; 
// 调 用 submitJob 来 提交 一 个 任务 
running=jc.submitJob (job) ; 


// 使 用 monitorAndPrintJob 方 法 不 断 监控 作业 进度 

if (! jc.monitorAndPrintJob (job, rj) ) { 
LOG.info ("Job Failed: "+rj.getFailureInfo () ) ; 
throw new IOException ("Job failed! ") ; 


} 


6.1.7 “完成 作业 


所 有 TaskTracker 任 务 的 执行 进度 信息 都 会 汇总 到 JobTracker 处 ， 当 
JobTracker 接 收 到 最 后 一 个 任务 的 已 完成 通知 后 ， 便 把 作业 的 状态 设置 
为 "成功 ”。 然 后 ，JobClient 也 将 及 时 得 知 任务 已 成 功 完成 ， 它 会 显示 
一 条 信息 告知 用 户 作业 已 完成 ， 最 后 从 runJob () 方法 处 返回 (在 返 
回 后 JobTracker 会 清空 作业 的 工作 状态 ， 并 指示 TaskTracker 也 清空 作业 
的 工作 状态 ， 比 如 删除 中 间 输 出 等 ) 。 


6.2 ”错误 处 理 机 制 


众所周知 ，Hadoop 有 很 强 的 容错 性 。 这 主要 是 针对 由 成 和 十 上 万 台 
普通 机 占 组 成 的 集群 中 常态 化 的 硬件 故障 ，Hadoop 能 够 利用 见 余 数据 
方式 来 解决 硬件 故障 ， 以 保证 数据 安全 和 任务 执行 。 那 么 MapReduce 
在 具体 执行 作业 过 程 中 遇 到 硬件 故障 会 如 何 处 理 呢 ? 对 于 用 户 代码 的 
IEAA ERRAL R AAEE? 本 下 将 从 硬件 故障 和 任 
务 失败 两 个 方面 说 明 MapReduce 的 错误 处 理 机 制 。 


6.2.1 硬件 故障 


从 MapReduce 任 务 的 执行 角度 出 发 ， 所 涉及 的 硬件 主要 是 
JobTracker 和 TaskTracker (对 应 从 HDFS 出 发 就 是 NameNode 和 
DataNode) 。 显 然 硬 件 故 障 束 是 JobTracker 机 器 故障 和 TaskTracker 机 器 
故障 。 


在 Hadoop 集 群 中 ， 任 何 时 候 都 只 有 唯一 一 个 JobTracker。 所 以 
JobTracker 故 障 就 是 单 点 故障 ， 这 是 所 有 错误 中 最 严重 的 。 到 目前 为 
止 ， 在 Hadoop 中 还 没有 相应 的 解决 办 法 。 能 够 想到 的 是 通过 创建 多 个 
备用 JobTracker 节 点 ， 在 主 JobTracker 失 败 之 后 采用 领导 选举 算法 

(Hadoop 中 常用 的 一 种 确定 Master 的 算法 ) 来 重新 确定 JobTracker 节 


点 。 一 些 企业 使 用 Hadoop 提 供 服 务 时 ， 束 采用 了 这 样 的 方法 来 避免 


JobTracker 销 误 。 


机 器 故障 除了 JobTracker 错 误 就 是 TaskTracker 错 误 。TaskTracker 故 
障 相 对 较为 常见 ， 并 且 MapReduce 也 有 相应 的 解决 办 法 ， 主 要 是 重新 
执行 任务 。 下 面 将 详细 介绍 当 作业 遇 到 TaskTracker 错 误 时 ， 
MapReduce 所 采取 的 解决 步骤 。 


在 Hadoop 中 ， 正 常情 况 下 ，TaskTracker 会 不 断 地 与 系统 
JobTracker 通 过 心路 机 制 进行 通信 。 如 果菜 TaskTracker 出 现 故障 或 运行 
缓慢 ， 它 会 停止 或 者 很 少 向 JobTracker 发 送 心跳 。 如 果 一 个 TaskTracker 
在 一 定时 间 内 (默认 是 1 分 钟 ) 没有 与 JobTracker 通 信 ， 那 么 JobTracker 
会 将 此 TaskTracker 从 等 待 任务 调度 的 TaskTIracker 集 合 中 移 除 。 同 时 
JobTracker 会 要 求 此 TaskTracker 上 的 任务 立刻 返回 ， 如 果 此 TaskTracker 
任务 是 仍然 在 mapping 阶 段 的 Map 任 务 ， 那 么 JobTracker 会 要 求 其 他 的 
TaskTracker 重 新 执行 所 有 原本 由 故障 TaskTracker 执 行 的 Map 任 务 。 如 
果 任 务 是 在 Reduce 阶 段 的 Reduce 任 务 ， 那 么 JobTracker 会 要 求 其 他 
TashTracker 重 新 执行 故障 TaskTracker 未 完成 的 Reduce 任 务 。 比 如 ， 一 
个 TaskTracker 已 经 完成 被 分 配 的 三 个 Reduce 任 务 中 的 两 个 ， 因 为 
Reduce 任 务 一 旦 完成 就 会 将 数据 写 到 HDFS 上 ， 所 以 只 有 第 三 个 未 完 
成 的 Reduce 需 要 重新 执行 。 但 是 对 于 Map 任 务 来 说 ， 即 使 TashTracker 
完成 了 部 分 Map, Reduce 仍 可 能 无 法 获取 此 市 点 上 所 有 Map 的 所 有 输 


出 。 所 以 无 论 Map 任 务 完成 与 否 ， 故 障 TashTracker 上 的 Map 任 务 都 必 
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6.2.2 ”任务 失败 


在 实际 任务 中 ，MapReduce 作 业 还 会 遇 到 用 户 代码 缺陷 或 进程 朋 
溃 引 起 的 任务 失败 等 情况 。 用 户 代 码 缺 陷 会 导致 它 在 执行 过 程 中 抛 出 
异常 。 此 时 ， 任 务 JVM 进 程 会 自动 退出 ， 并 向 TashTracker 父 进程 发 送 
错误 消息 ， 同 时 错误 消息 也 会 写 入 log 文 件 ， 最 后 TasKTracker 将 此 次 任 
务 尝试 标记 失败 。 对 于 进程 朋 溃 引起 的 任务 失败 ，TashTracker 的 监听 
程序 会 发 现 进程 退出 ， 此 时 TaskTracker 也 会 将 此 次 任务 尝试 标记 为 失 
败 。 对 于 死 循环 程序 或 执行 时 间 太 长 的 程序 ， 由 于 TashTracker 没 有 接 
收 到 进度 更 新 ， 它 也 会 将 此 次 任务 答 试 标记 为 失败 ， 并 杀 死 程序 对 应 
的 进程 。 


在 以 上 情况 中 ，TaskTracker 将 任务 笑 试 标记 为 失败 之 后 会 将 
TaskTracker 自 身 的 任务 计数 器 减 1， 以 便 向 JobTracker 申 请 新 的 任务 。 
TaskTracker 也 会 通过 心跳 机 制 告 诉 JobTracker 本 地 的 一 个 任务 尝试 失 
败 。JobTracker 接 到 任务 失败 的 通知 后 ， 通 过 重 置 任务 状态 ， 将 其 加 入 
到 调度 队列 来 重新 分 配 该 任务 执行 (JobTracker 会 尝试 避免 将 失败 的 任 
务 再 次 分 配给 运行 失败 的 TaskTracker) 。 如 果 此 任务 尝试 了 4 次 (次 数 
可 以 进行 设置 ) 仍 没有 完成 ， 就 不 会 再 被 重 试 ， 此 时 整个 作业 也 就 失 
WT ° 


6.3 ”作业 调度 机 制 


在 0.19.0 版 本 之 前 ，Hadoop 集 群 上 的 用 户 作 业 采 用 先进 移出 
(FIFO, First Input First Output) 调度 算法 ， 即 按照 作业 提交 的 顺序 来 
运行 。 同 时 每 个 作业 都 会 使 用 整个 集群 ， 因 此 它们 只 有 轮 到 自己 运行 
才能 享受 整个 集群 的 服务 。 虽 然 FIFO 调 度 器 最 后 又 支持 了 设置 优先 级 
的 功能 ， 但 是 由 于 不 文 持 优先 级 抢占 ， 所 以 这 种 单 用 户 的 调度 算法 仍 
然 不 符合 云 计 算 中 采用 并 行 计算 来 提供 服务 的 宗旨 。 从 0.19.0 版 本 开 
始 ，Hadoop 除 了 默认 的 FIFO 调 度 器 外 ， 还 提供 了 支持 多 用 户 同时 服务 
和 集群 资源 公平 共享 的 调度 器 ， 即 公平 调度 器 (Fair Scheduler 
Guide) 和 容量 调度 器 (Capacity Scheduler Guide) 。 下 面 主要 介绍 公 
平 调度 器 。 


公平 调度 是 为 作业 分 配 资源 的 方法 ， 其 目的 是 随 痢 时 间 的 推移 ， 
让 提交 的 作业 获取 等 量 的 集群 共 译 资源 ， 让 用 户 公 平地 共 至 集群 。 具 
体 做 法 是 ， 当 集群 上 只 有 一 个 作业 在 运行 时 ， 它 将 使 用 整个 集群 ， 当 
有 其 他 作业 提交 时 ， 系 统 会 将 TaskTracker 节 点 空闲 时 间 片 分 配给 这 些 


新 的 作业 ， 并 保证 每 一 个 作业 都 得 到 大 概 等 量 的 CPU 时 间 。 


公平 调度 器 按 作 业 池 来 组 织 作 业 ， 它 会 按照 提交 作业 的 用 户 数目 
将 资源 公平 地 分 到 这 些 作 业 池 里 。 默 认 情 况 下 ， 每 一 个 用 户 拥有 一 个 
独立 的 作业 池 ， 以 使 每 个 用 户 都 能 获得 一 份 等 同 的 集群 资源 而 不 会 管 


它们 提交 了 多 少 作 业 。 在 每 一 个 资源 池内 ， 会 用 公平 共 圣 的 方法 在 运 
行 作业 之 间 共 至 容量 。 除 了 提供 公平 共 至 方法 外 ， 公 平 调度 右 还 允许 
为 作业 池 设 置 最 小 的 共 主 资源 ， 以 确保 特定 用 户 、 群 组 或 生产 应 用 程 
序 辟 能 获取 到 足够 的 资源 。 对 于 设置 了 最 小 共 至 资源 的 作业 池 来 说 ， 
如 有 果 包 含 了 作业 ， 它 至 少 能 获取 到 最 小 的 共 至 资源 。 但 是 如 有 果 最 小 共 
圣 资 源 超过 作业 需要 的 资源 时 ， 和 额外 的 资源 会 在 其 他 作业 池 间 进行 切 


在 第 规 操 作 中 ， 当 提交 一 个 新 作业 时 ， 公 平 调度 器 会 等 每 已 运行 
作业 中 的 任务 完成 ， 以 释放 时 间 片 给 狐 的 作业 。 但 公平 调度 器 也 文 持 
作业 抢占 。 如 果 新 的 作业 在 一 定时 间 〈 即 超时 时 间 ， 可 以 配置 ) 内 还 
未 获取 公平 的 质 源 分 配 ， 公 平 调度 需 驶 会 允许 这 个 作业 抢占 已 运行 作 
业 中 的 任务 ， 以 获取 运行 所 需要 的 资源 。 另 外 ， 如 采 作 业 在 超时 时 间 
内 获取 的 资源 不 到 公平 共 至 资源 的 一 半 时 ， 也 允许 对 任务 进行 抢占 。 
而 在 选择 时 ， 公 平 调度 占 会 在 所 有 运行 任务 中 选择 最 近 运 行 起 来 的 任 
务 ， 这 样 汇 费 的 计算 相对 较 少 。 由 于 Hadoop 作 业 能 容 妨 丢失 任务 ， 抢 
占 不 会 导致 被 抢占 的 作业 失败 ， 只 是 让 被 抢占 作业 的 运行 时 间 更 长 。 


最 后 ， 公 平 调度 器 还 可 以 限制 每 个 用 户 和 每 个 作业 池 并 发 运行 的 
作业 数量 。 这 个 限制 可 以 在 用 户 一 次 性 提交 数 百 个 作业 或 当 大 量 作 业 
并 发 执行 时 用 来 确保 中 间 数 据 不 会 塞 满 集 群 上 的 倍 副 空间 。 超 出 限制 
的 作业 会 被 列 入 调度 絮 的 队列 中 进行 等 每 ， 直 到 早期 作业 运行 完毕 。 


ZF Wal FS at FPR DE FL OC CAAT Ge BC AY TA] SY AES E DA SEREA E y 
度 即将 运行 的 作业 。 


6.4 Shuffle 和 排序 


从 前 面 的 介绍 中 我 们 得 知 ，Map 的 输出 会 经 过 一 个 名 为 shuffle 的 
过 程 交 给 Reduce 处 理 (在 “MapReduce 数 据 流 ”* 图 中 也 可 以 看 出 ) , 
然 也 有 Map 的 结果 经 过 sort-merge 交 给 Reduce 处 理 的 。 其 实在 
MapReduce 流 程 中 ， 为 了 让 Reduce 可 以 并 行 处 理 Map 结 果 ， 必 须 对 Map 
的 输出 进行 一 定 的 排序 和 分 割 ， 然 后 再 交 给 对 应 的 Reduce， 而 这 个 将 
Map 输 出 进行 进一步 整理 并 交 给 Reduce 的 过 程 束 成 为 了 shuffle。 从 
shuffle 的 过 程 可 以 看 出 ， 它 是 MapReduce 的 核心 所 在 ，shuffle 过 程 的 性 
能 与 整个 MapReduce 的 性 能 直接 相关 。 


总 体 来 说 ，shuffle 过 程 包含 在 Map 和 Reduce 两 端 中 。 在 Map 端 的 
shuffle 过 程 是 对 Map 的 结果 进行 划分 (partition) 、 排 序 (sort) 和 分 割 
(spill) ， 然 后 将 属于 同一 个 划分 的 输出 合并 在 一 起 (merge) 并 写 在 
磁盘 上 ， 同 时 按照 不 同 的 划分 将 结果 发 送 给 对 应 的 Reduce (Map 输 出 
的 划分 与 Reduce 的 对 应 关系 由 JobTracker 确 定 ) 。Reduce 端 又 会 将 各 个 
Map 送 来 的 属于 同一 个 划分 的 输出 进行 合并 (merge) ， 然 后 对 merge 
的 结果 进行 排序 ， 最 后 交 给 Reduce 处 理 。 下 面 将 从 Map 和 Reduce 两 端 
详细 介绍 shuffle 过 程 。 


6.4.1 Mapvfin 


从 MapReduce 的 程序 中 可 以 看 出 ，Map 的 输出 结果 是 由 collector 处 
理 的 ， 所 以 Map 端 的 shuffle 过 程 包含 在 collect 函 数 对 Map 输 出 结 采 的 处 
过 程 中 。 下 面 从 具体 的 代码 来 分 机 Map 端 的 shuffle 过 程 。 


首先 从 collect 函 数 的 代码 入 手 (MapTask 类 ) 。 从 下 面 的 代码 段 可 
以 看 出 Map 芳 数 的 输出 内 存 缓冲 区 是 一 个 环形 结构 。 


final int kvnext= (kvindex+1) %kvoffsets.length; 


FRILL TN RAN ASA SEA BM LAY, Mi BEE eh ANE 
分 割 (spill) 到 磁盘 中 。 但 是 在 分 割 的 时 候 Map 并 不 会 阻止 继续 向 绥 
冲 区 中 写 入 结果 ， 如 果 Map 结 采 生 成 的 速度 快 于 写 出 速度 ， 那 么 缓冲 
Xx 会 写 满 ， 这 时 Map 任 务必 须 等 每 ， 直 到 分 割 写 出 过 程 结束 。 这 个 
程 可 以 参考 下 面 的 代码 。 


do{ 

// 在 环形 缓冲 区 中 ， 如 果 下 一 个 空闲 位 置 同 起 始 位 置 相等 ， 那 么 缓冲 区 
// 已 满 

kvfull=kvnext==kvstart; 

/ TEBE KAA Ae BAB S h AY BE 

final boolean kvsoftlimit= ( (kvnext >kvend) 
?kvnext-kvend>softRecordLimit 

: kvend-kvnext <=kvoffsets.length-softRecordLimit) ; 
// 达 到 阔 值 ， 写 出 缓冲 区 内 容 ， 形 成 spi1ll1 文 件 
if (kvstart==kvend&&kvsoftlimit) { 
startSpill () ; 


} 

// 如 果 缓 冲 区 满 ， 则 Map 任 务 等 待 写 出 过 程 结束 
if (kvfull) { 

while (kvstart! =kvend) { 
reporter.progress () ; 
spillDone.await () ; 


} 


} 
}while (kvfull) ; 


fE collect HAH KRK PAY TA ZS co EY > Ya A sort And Spill i 
数 。sortAndSp 训 每 被 调用 一 次 就 会 创建 一 个 sp 记 文 件 ， 然 后 按照 key 值 
对 需要 写 出 的 数据 进行 排序 ， 最 后 按照 划分 的 顺序 将 所 有 需要 写 出 的 
ca ee ee 
出 过 程 中 会 先 调用 combineAndSpill () 再 写 出 ， 对 结果 进行 进一步 合 
i ri ni ec ca 数 的 
执行 过 程 可 以 参考 下 面 sortAndSp 训 函数 的 代码 。 


// 创 建 spi11 文 件 

Path filename=mapOutputFile.getSpillFileForwWrite (numSpills, 
size) ; 

out=rfs.create (filename) ; 


// 按 照 key 值 对 待 写 出 数据 进行 排序 
sorter.sort (MapOutputBuffer.this, kvstart, endPosition, 
reporter) ; 


// 按 照 划 分 将 数据 写 入 文件 

for (int i=0; i<partitions; ++i) { 

IFile.Writer<K, V>writer=null; 

long segmentStart=out.getPos () ; 

writer=new Writer<K, V> (job, out, keyClass, valClass, codec, 
spilledRecordsCounter) ; 

// 如 果 没 有 配置 combiner 类 ， 数 据 直接 写 入 文件 


if (null==combinerClass) { 


// 如 果 配 置 了 combiner 类 ， 则 先 调用 combineAndSpil1 画 
// 数 后 再 写 入 文件 
combineAndSpill (kvIter, combineInputCounter) ; 
} 
} 


显然 ， 直 接 将 每 个 Map 生 成 的 众多 spill 文 件 (因为 Map 过 程 中 ， 每 
一 次 缓冲 区 写 出 都 会 产生 一 个 spill 文 件 ) 交 给 Reduce 处 理 不 现实 。 所 
以 在 每 个 Map 任 务 结束 之 后 在 Map 的 TaskTracker 上 还 会 执行 合并 操作 
(merge) ， 这 个 操作 的 主要 目的 是 将 Map 生 成 的 众多 sp 记 ll 文件 中 的 数 
据 按照 划分 重新 组 织 ， 以 便于 Reduce 处 理 。 主 要 做 法 是 针对 指定 的 分 
区 ， 从 各 个 spill 文 件 中 拿 出 属于 同一 个 分 区 的 所 有 数据 ， 然 后 将 它们 
合并 在 一 起 ， 并 写 入 一 个 已 分 区 且 已 排序 的 Map 输 出 文件 中 。 这 个 过 
程 的 详细 情况 请 参考 mergeParts () 函数 的 代码 ， 这 里 不 再 列 出 。 


待 唯一 的 已 分 区 且 已 排序 的 Map 输 出 文件 写 入 最 后 一 条 记录 后 ， 
Map 端 的 shuffle 阶 段 就 结束 了 。 下 面 就 进入 Reduce 端 的 shuffle 阶 段 。 


6.4.2 Reduced 


在 Reduce 端 ，shuffle 阶 段 可 以 分 成 三 个 阶段 ， 复制 Map 输 出 、 排 
序 合 并 和 Reduce 处 理 。 下 面 按 照 这 三 个 阶段 进行 详细 介绍 。 


如 前 文 所 述 ，Map 任 务 成 功 完成 后 ， 会 通知 父 TashTracker 状 态 已 
更 新 ，TaskTracker 进 而 通知 JobTracker (这 些 通知 在 心跳 机 制 中 进 
行 ) 。 所 以 ， 对 于 指定 作业 来 说 ，JobTracker 能 够 记录 Map 输 出 和 
TaskTracker 的 映射 关系 。Reduce 会 定期 间 JobTracker 获 取 Map 的 输出 位 
置 。 一 旦 拿 到 和 输出 位 置 ，Reduce 任 务 就 会 从 此 输出 对 应 的 TaskTracker 
上 复制 输出 到 本 地 (如 果 Map 的 输出 很 小 ， 则 会 被 复制 到 执行 Reduce 
任务 的 TaskTracker 太 点 的 内 存 中 ， 便 于 进一步 处 理 ， 否 则 会 放 入 磁 
盘 ) ， 而 不 会 等 到 所 有 的 Map 任 务 结束 。 这 就 是 Reduce 任 务 的 复制 阶 


段 。 


在 Reduce 复 制 Map 的 输出 结 末 的 同时 ，Reduce 任 务 就 进入 了 合并 
(merge) 阶段 。 这 一 阶段 主要 的 任务 是 将 从 各 个 Map TaskTracker 上 复 
制 的 Map 输 出 文件 〈 无 论 在 内 存 还 是 在 磁盘 ) 进行 整合 ， 并 维持 数据 
原来 的 顺序 。 


reduce 端 的 最 后 阶段 就 是 对 合并 的 文件 进行 reduce 处 理 。 下 面 是 
reduce Task 上 run 函 数 的 部 分 代码 ， 从 这 个 函数 可 以 看 出 整个 Reduce 端 


的 三 个 步骤。 


// 复 制 阶段 ， 从 map TaskTracker 处 获取 Map 输 出 

boolean isLocal="local".equals (job.get 
("mapred.job.tracker", "local") ) ; 

if (! isLocal) { 

reduceCopier=new ReduceCopier (umbilical, job, reporter) ; 

if (! reduceCopier.fetchOutputs () ) { 


// 复 制 阶段 结束 
copyPhase.complete () ; 

// 合 并 阶段 ， 将 得 到 的 Map 输 出 合并 
setPhase (TaskStatus.Phase.SORT) ; 
// 合 并 阶段 结束 
sortPhase.complete () ; 

//Reduce 阶 段 

setPhase (TaskStatus.Phase.REDUCE) ; 

// 启 动 Reduce 

Class keyClass=job.getMapOutputKeyClass () ; 

Class valueClass=job.getMapOutputValueClass () ; 

RawComparator comparator=job.getOutputValueGroupingComparator 


if (useNewApi) { 
runNewReducer (job, umbilical, reporter, riIter, comparator, 
keyClass, valueClass) ; 

selse{ 

runOldReducer (job, umbilical, reporter, riIter, comparator, 
keyClass, valueClass) ; 
} 


done (umbilical, reporter) ; 


} 


6.4.3 ”shuffle 过 程 的 优化 


熟悉 了 上 面 介绍 的 shuffle 过 程 ， 可 能 有 读者 会 说 : 这 个 shuffle 过 程 
不 是 最 优 的 。 是 的 ，Hadoop 采 用 的 shuffle 过 程 并 不 是 最 优 的 。 举 个 简 
单 的 例子 ， 如 果 现 在 需要 Hadoop 集 群 完 成 两 个 集合 的 并 操作 ， 事 实 上 
并 操作 只 需要 让 两 个 集群 中 重复 的 元 素 在 最 后 的 结果 中 出 现 一 次 就 可 
以 了 ， 并 不 要 求 结 果 的 元 素 是 按 顺序 排列 的 。 但 是 如 果 使 用 Hadoop 默 
认 的 shuffle 过 程 ， 那 么 结果 势必 是 排 好 序 的 ， 显 然 这 个 处 理 就 不 是 必 
须 的 了 。 在 这 里 简单 介绍 从 Hadoop 参 数 的 配置 出 发 来 优化 shuffle 过 
程 。 在 一 个 任务 中 ， 完 成 单位 任务 使 用 时 间 最 多 的 一 般 都 是 IO 操作 。 
在 Map 端 ， 主 要 就 是 shuffle 阶 段 中 缓冲 区 内 容 超 过 阔 值 后 的 写 出 操 
作 。 可 以 通过 合理 地 设置 ip.sort.* 属 性 来 减少 这 种 情况 下 的 写 出 次 数 ， 
具体 来 说 就 是 增加 io.sort.mb 的 值 。 在 Reduce 端 ， 在 复制 Map 输 出 的 时 
候 直 接 将 复制 的 结果 放 在 内 存 中 同样 能 够 提升 性 能 ， 这 样 可 以 让 部 分 
数据 少 做 两 次 MO 操作 〈 前 提 是 留 下 的 内 存 足 够 Reduce 任 务 执行 ) 。 所 
以 在 Reduce 函 数 的 内 存 需求 很 小 的 情况 下 ， 将 
mapred.inmem.merge.threshold 设 置 为 0， 将 
mapreed.job.reduce.input.buffer.percent 设 置 为 1.0 (或 者 一 个 更 低 的 值 ) 
能 够 让 VO 操作 更 少 ， 提 升 shuffle 的 性 能 。 


6.5 ”任务 执行 


本 章 前 面 详细 介绍 了 MapReduce 作 业 的 执行 流程 ， 也 人 徐 单 介绍 了 
基于 Hadoop 目 吴 的 一 些 参数 优化 。 本 和 再 介绍 一 些 Hadoop 在 任务 执行 
时 的 具体 策略 ， 让 读者 进一步 了 解 MapReduce 任 务 的 执行 细节 ， 以 便 


控制 细节 。 
6.5.1 ”推测 式 执 行 


所 谓 推测 式 执行 是 指 当 作业 的 所 有 任务 都 开始 运行 时 ，JobTracker 
会 统计 所 有 任务 的 平均 进度 ， 如 果菜 个 任务 所 在 的 TaskTracker 点 由 
于 配置 比较 低 或 CPU 负载 过 高 ， 导 致 任务 执行 的 速度 比 总 体 任 务 的 平 
均 速 度 要 慢 ， 此 时 JobTracker 束 会 局 动 一 个 新 的 备份 任务 ， 原 有 任务 和 
新 任务 哪个 先 执行 完 就 把 另外 一 个 kill 掉 ， 这 就 是 经 常 在 JobTracker 页 
面 看 到 任务 执行 成 功 、 但 是 总 有 些 任 务 被 kil 的 原因 。 


MapReduce 将 行 执 行 作业 分 割 成 一 些小 任务 ， 然 后 并 行 运 行 这 些 
任务 ， 提 高 作业 运行 的 效率 ， 使 作业 的 整体 执行 时 间 少 于 顺序 执行 的 
时 间 。 但 很 明显 ， 运 行 缓慢 的 任务 (可 能 因为 配置 问题 、 便 件 问题 或 
CPU 负载 过 高 ) 将 成 为 MapReduce 的 性 能 瓶颈 。 因 为 只 要 有 一 个 运行 
缓慢 的 任务 ， 整 个 作业 的 完成 时 间 将 被 大 大 延长 。 这 个 时 候 就 需要 采 


用 推测 式 执 行 来 避免 出 现 这 种 情况 。 当 JobTracker 检 测 到 所 有 任务 中 存 
在 运行 过 于 绥 慢 的 任务 时 ， 残 会 局 动力 一 个 相同 的 任务 作为 备份 。 原 
始 任务 和 备份 任务 中 只 要 有 一 个 完成 ， 男 一 个 整 会 被 中 止 。 推 测 式 执 
行 的 任务 只 有 在 一 个 作业 的 所 有 任务 开始 执行 之 后 才 会 启动 ， 并 且 只 
针对 运行 一 段 时 间 之 后 、 执 行 速度 慢 于 整个 作业 的 平均 执行 速度 的 情 
ee 


推测 式 执行 在 默认 情况 下 是 局 用 的 。 这 种 执行 方式 有 一 个 很 明显 
的 缺陷 ,对 于 由 于 代码 缺陷 导致 的 任务 执行 速度 过 慢 ， 它 所 局 用 的 备 
份 任务 并 不 会 解决 问题 。 除 此 之 外 ， 因 为 推测 式 执行 会 启动 新 的 任 
务 ， 所 以 这 种 执行 方式 不 可 避免 地 会 增加 集群 的 负担 。 所 以 在 利用 
Hadoop 集 群 运行 作业 的 时 候 可 以 根据 具体 情况 选择 开启 或 天 闭 推 测 式 


执行 策略 〈 通 过 设置 mapred.map.tasks.speculative.execution 和 


mapred.reduce.tasks.speculative.execution 属 性 的 值 来 为 Map 和 Reduce 任 
务 开启 或 关闭 推测 式 执行 策略 ) 。 


6.5.2 ”任务 JVM 重 用 


在 本 章 图 6-1 中 可 以 看 出 ， 不 论 是 Map 任 务 还 是 Reduce 任 务 ， 都 是 
在 TaskTracker 节 点 上 的 Java 虚 拟 机 VM) 中 运行 的 。 当 TaskTracker 
被 分 配 一 个 任务 时 ， 就 会 在 本 地 启动 一 个 新 的 Java 虚 拟 机 来 运行 这 个 
任务 。 对 于 有 大 量 零碎 输入 文件 的 Map 任 务 而 言 ， 为 每 一 个 Map 任 务 
启动 一 个 Java 虚 拟 机 这 种 做 法 显然 还 有 很 大 的 改善 空间 。 如 果 在 一 个 
非常 短 的 任务 结束 之 后 让 后 续 的 任务 重用 此 Java 虚 拟 机 ， 这 样 就 可 以 
省 下 新 任务 启动 新 的 Java 虚 拟 机 的 时 间 ， 这 就 是 所 谓 的 任务 JVM 重 
用 。 需 要 注意 的 是 ， 虽 然 一 个 TaskTracker 上 可 能 会 有 多 个 任务 在 同时 
运行 ， 但 这 些 正在 执行 的 任务 都 是 在 相互 独立 的 JVM 上 的 。 
TaskTracker 上 的 其 他 任务 必须 等 等 ， 因 为 即使 月 用 JVM 重 用 ，JVM 也 
只 能 顺序 执行 任务 。 


控制 JVM 重 用 的 属性 是 mapred.job.reuse.jvm.num.tasks。 这 个 属性 
定义 了 单个 JVM 上 运行 任务 的 最 大 数目 ， 默 认 情 况 下 是 1， 意 味 着 每 个 
JVM 上 运行 一 个 任务 。 可 以 将 这 个 属性 设置 为 一 个 大 于 1 的 值 来 局 用 
JVM 重 用 ， 也 可 以 将 此 属性 设 为 -1， 表 明 共 享 此 JVM 的 任务 数目 不 受 
限制 。 


6.5.3” 跳 过 坏 记 了 采 


MapReduce 作 业 处 理 的 数据 集 非常 庞大 ， 用 户 在 基于 MapReduce 
编写 处 理 程序 时 可 能 并 不 会 考虑 到 数据 集中 的 每 一 种 数据 格式 和 字段 
(特别 是 某 些 坏 的 记录 ) 。 所 以 ， 用 户 代 码 在 处 理 数据 集中 的 某 个 特 
定 记录 时 可 能 会 朋 吝 。 这 个 时 候 即 使 MapReduce 有 错误 处 理 机 制 ， 但 
是 由 于 存在 这 种 代码 缺陷 ， 即 使 重新 执行 4 次 (默认 的 最 大 重新 执行 次 
数 ) ， 这 个 任务 仍然 会 失败 ， 最 终 也 会 导致 整个 作业 失败 。 所 以 针对 
这 种 由 于 坏 数 据 导致 任务 抛 出 的 异 章 ， 重 新 运行 任务 是 无 济 于 事 的 。 
但 是 ， 如 采 想 要 在 庞大 的 数据 集中 找 出 这 个 坏 记录 ， 然 后 在 程序 中 添 
加 相应 的 处 理 代码 或 直接 除去 这 条 坏 记 录 ， 显 然 也 是 很 困难 的 一 件 事 
情 ， 况 且 并 不 能 保证 没有 其 他 坏 记 录 。 所 以 最 好 的 办 法 就 古 在 当前 代 
码 对 应 的 任务 执行 期 间 ， 过 到 坏 记 录 时 就 直接 跳 过 去 (由 于 数据 集 巨 
大 ， 忽 略 这 种 极 少数 的 坏 记 录 是 可 以 接受 的 ) ， 然 后 继续 执行 ， 这 束 
征 Hadoop 中 的 忽略 模式 《skipping 模 式 ) 。 当 忽略 模式 局 动 时 ， 如 采 
任务 连续 失败 两 次 ， 它 会 将 目 己 正在 处 理 的 记录 告诉 TaskTracker， 然 
后 TaskTracker 会 重 狐 运行 该 任务 并 在 运行 到 先前 任务 报告 的 记录 时 直 
接 跳 过 。 从 名 略 模 式 的 工作 方式 可 以 看 出 ， 忽 略 模 式 只 能 检测 并 忽略 
一 个 错误 记录 ， 因 此 这 种 机 制 仅 适 用 于 检测 个 别 错误 记录 。 如 琳 增 加 


任务 尝试 次 数 最 大 值 (这 由 mapred.map.max.attemps 和 


mapred.reduce.max.attemps 两 个 属性 决定 ) ， 可 以 增加 忽略 模式 能 够 检 
测 并 忽略 的 错误 记录 数目 。 默 认 情 况 下 忽略 模式 是 关闭 的 ， 可 以 使 用 
SkipBadRedcord 类 单独 为 Map 和 Reduce 任 务 局 用 它 。 


6.5.4 ”任务 执行 环境 


Hadoop 能 够 为 执行 任务 的 TaskTracker 提 供 执行 所 需要 的 环境 信 
已 。 例 如 ，Map 任 务 可 以 知道 自己 所 处 理 文件 的 名 称 、 自 己 在 作业 任 
务 群 中 的 ID 号 等 。JobTracker 分 配 任 务 给 TaskTracker 时 ， 就 会 将 作业 的 
配置 文件 发 送 给 TaskTracker TaskTracker 将 此 文件 保存 在 本 地 。 从 本 章 
前 面 的 介绍 中 我 们 知道 ，TaskTracker 是 在 本 节点 单独 的 JVM 上 以 子 进 
程 的 形式 执行 Map 或 Reduce 任 务 的 。 所 以 启动 Map 或 Reduce Task 时 ， 
会 直接 从 父 TaskTracker 处 继承 任务 的 执行 环境 。 图 6-2 列 出 了 每 个 Task 
执行 时 使 用 的 本 地 参数 (从 作业 配置 中 获取 ， 返 回 给 Task 的 是 配置 信 
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6-2 ”Task 的 本 地 参数 表 


当 Job 局 动 时 ，TaskTracker 会 根据 配置 文件 创建 Job 和 本 地 缓存 。 
TaskTracker 的 本 地 目录 是 ${mapred.local.dir}/taskTracker/。 在 这 个 目录 
下 有 两 个 子 目录 : 一 个 是 作业 的 分 布 式 缓存 目录 ， 路 径 是 在 本 地 目录 
后 面 加 上 archive/: 一 个 是 本 地 Job 目 录 ， 路 径 是 在 本 地 目录 后 面 加 上 


jobcache/$jobid/， 在 这 个 目录 下 保存 了 Job 执 行 的 共享 目 录 (各 个 任务 
可 以 使 用 这 个 空间 作为 暂 存 空间 ， 用 于 任务 之 间 的 文件 共享 ， 此 目录 
通过 job.local.dir 参 数 暴 露 给 用 户 ) 、 存 放 JAR 包 的 目录 (保存 作业 的 
JAR 文 件 和 展开 的 JAR 文 件 ) 、 一 个 XML 文 件 (此 XML 文 件 是 本 地 通 
用 的 作业 配置 文件 ) 和 根据 任务 ID 分 配 的 任务 目录 (每 个 任务 都 有 一 
个 这 样 的 目录 ， 目 录 中 包含 本 地 化 的 任务 作业 配置 文件 ， 存 放 中 间 结 
果 的 输出 文件 目录 、 任 务 当 前 工作 目录 和 任务 临时 目录 ) 。 


关于 任务 的 输出 文件 需要 注意 的 是 ， 应 该 确保 同一 个 任务 的 多 个 
实例 不 会 尝试 向 同一 个 文件 进行 写 操作 。 因 为 这 可 能 会 存在 两 个 问 
题 ， 第 一 个 问题 是 ， 如 果 任 务 失 败 并 被 重 试 ， 那 么 会 先 删 除 第 一 个 任 
务 的 旧 文 件 ， 第 二 个 问题 是 ， 在 推测 式 执行 的 情况 下 同一 任务 的 两 个 
实例 会 向 同一 个 文件 进行 写 操作 。Hadoop 通 过 将 输出 写 到 任务 的 临时 
文件 夹 来 解决 上 面 的 两 个 问题 。 这 个 临时 目录 是 {mapred.out 
put.dir}/_temporary/${mapred.task.id}。 如 果 任 务 执行 成 功 ， 目 录 的 内 
容 (任务 输出 ) 就 会 被 复制 到 此 作业 的 输出 目录 
(${mapred.out.put.dir}) 。 因 此 ， 如 果 一 个 任务 失败 并 重 试 ， 第 一 个 
任务 尝试 的 部 分 输出 就 会 被 消除 。 同 时 推测 式 执行 时 的 备份 任务 和 原 
始 任务 位 于 不 同 的 工作 目录 ， 它 们 的 临时 输出 文件 夹 并 不 相同 ， 只 
先 完 成 的 任务 才 会 把 其 工作 目录 中 的 输出 内 容 传 到 输出 目录 中 ， 而 另 
外 一 个 任务 的 工作 目录 就 会 被 丢弃 。 


6.6 本章 小 结 


本 章 从 MapReduce 程 序 中 的 JobClient.runJob (conf) 开始 ， 给 出 了 
MapReduce 执 行 的 流程 图 ， 并 分 析 了 流程 图 中 的 四 个 核心 实体 ， 结 合 
实际 代码 介绍 了 MapReduce 执 行 的 详细 流程 。MapReduce 的 执行 流程 
简单 概括 如 下 : 用 户 作 业 执 行 JobClient.runJob (conf) 代码 会 在 
Hadoop 集 群 上 将 其 启动 。 启 动 之 后 JobClient 实 例会 向 JobTracker 获 取 
JobId， 而 且 客 户 端 会 将 作业 执行 需要 的 作业 资源 复制 到 HDFS 上 ， 然 
后 将 作业 提交 给 JobTracker。JobTracker 在 本 地 初始 化 作业 ， 再 从 HDFS 
作业 资源 中 获取 作业 输入 的 分 割 信息 ， 根 据 这 些 信息 JobTracker 将 作业 
分 割 成 多 个 任务 ， 然 后 分 配给 在 与 JobTracker 心 跳 通 信 中 请 求 任务 的 
TaskTracker。TaskTracker 接 收 到 新 的 任务 之 后 会 先 从 HDFS 上 获取 作业 
资源 ， 包 括 作业 配置 信息 和 本 作业 分 片 的 输入 ， 然 后 在 本 地 启动 一 个 
JVM 并 执行 任务 。 任 务 结束 之 后 将 结果 写 回 HDFS。 


介绍 完 MapReduce 作 业 的 详细 流程 后 ， 本 章 还 重点 介绍 了 
MapReduce 中 采用 的 两 种 机 制 ， 分 别 是 错误 处 理 机 制 和 作业 调度 机 
制 。 在 错误 处 理 机 制 中 ， 如 果 遇 到 硬件 故障 ，MapReduce 会 将 故障 世 
点 上 的 任务 分 配给 其 他 节点 处 理 。 如 采 过 到 任务 失败 ， 则 会 重 狐 执 
行 。 在 作业 调度 机 制 中 ， 主 要 介绍 了 公平 调度 釉 。 这 种 调度 策略 能 够 


按照 提交 作业 的 用 户 数目 将 资源 公平 地 分 到 用 户 的 作业 池 中 ， 以 达到 
用 户 公平 共 吾 整个 集群 的 目的 。 


本 章 最 后 介绍 了 MapReduce 中 两 个 流程 的 细节 ， 分 别 是 shuffle 和 
任务 执行 。 在 shuffle 中 ， 从 代码 入 手 介 绍 了 Map 端 和 Reduce 端 的 shuffle 
过 程 及 shuffle 的 优化 。shuffle 的 过 程 可 以 概括 为 :在 Map 端 ， 当 绥 冲 区 
内 容 达 到 阔 值 时 Map 写 出 内 容 。 写 出 时 按照 key 值 对 数据 排序 ， 再 按照 
划分 将 数据 写 入 文件 ， 然 后 进行 merge 并 将 结果 交 给 Reduce。 在 Reduce 
端 ，TaskTracker 先 从 执行 Map 的 TaskTracker 节 点 上 复制 Map 输 出 ， 然 
后 对 排序 合并 ， 最 后 进行 Reduce 处 理 。 关 于 任务 执行 则 主要 介绍 了 三 
个 任务 执行 的 细节 ， 分 别 是 推测 式 执行 、JVM 重 用 和 执行 环境 。 推 测 
式 执行 是 指 JobTracker 在 作业 执行 过 程 中 ， 发 现 某 个 作业 执行 速度 过 
慢 ， 为 了 不 影响 整个 作业 的 完成 进度 ， 会 启动 和 这 个 作业 完全 相同 的 
备份 作业 让 TaskTracker 执 行 ， 最 后 保留 二 者 中 较 快 完成 的 结果 。JVM 
重用 主要 是 针对 比较 零碎 的 任务 ， 对 于 新 任务 不 是 启动 新 的 JVM， 而 
是 在 先前 任务 执行 完毕 的 JVM 上 直接 执行 ， 这 样 节省 了 JVM 启 动 的 时 
间 。 在 任务 执行 环境 中 主要 介绍 了 任务 执行 参数 的 内 容 和 任务 目录 结 
构 ， 以 及 任务 临时 文件 夹 的 使 用 情况 。 


287%. Hadoop IO 操作 


IO 操作 中 的 数据 检查 

数据 的 压缩 

数据 的 VO 中 序列 化 操作 

针对 Mapreduce 的 文件 类 

本 章 小 结 

Hadoop 工 程 下 与 WO 相关 的 包 如 下 : 
org. apache.hadoop.io 

org. apache.hadoop.io.compress 

org. apache.hadoop.io.file.tfile 

org. apache.hadoop.io.serializer 


org. apache.hadoop.io.serializer.avro 


除了 org.apache.hadoop.io.serializer.avro 用 于 为 Avro (与 Hadoop 相 
关 的 Apache 的 另 一 个 顶级 项 目 ) 提供 数据 序列 化 操作 外 ， 其 余 都 是 用 
于 Hadoop 的 IO 操作 。 


除 此 以 外 ， 部 分 fs 类 中 的 内 容 也 与 本 章 有 关 ， 所 以 本 章 也 会 提 太 
一 些 ， 不 过 大 都 是 一 些 通用 的 东西 ， 由 于 对 HDFS 的 介绍 不 是 本 章 的 
重点 ， 在 此 不 会 详 述 。 


可 以 说 ，Hadoop 的 IO 由 传统 的 MO 操作 而 来 ， 但 是 又 有 些 不 同 。 
第 一 ， 在 我 们 常见 的 计算 机 系统 中 ， 数 据 是 集中 的 ， 无 论 多 少 电影 、 
首 乐 或 者 Word 文 档 ， 它 只 会 存在 于 一 台 主 机 中 ， 而 Hadoop 则 不 同 ， 
Hadoop 系 统 中 的 数据 经 常 是 分 散在 多 个 计算 机 系统 中 的 ， 第 二 ， 一 般 
而 言 ， 传 统计 算 机 系统 中 的 数据 量 相对 较 小 ， 大 多 在 GB 级 别 ， 而 
Hadoop 处 理 的 数据 经 常 是 PB 级 别 的 。 


变化 整 会 带 来 问题 ， 这 两 个 变化 市 给 我 们 的 问题 就 是 Hadoop 的 1/O 
操作 不 仅 要 考虑 本 地 主机 的 IO 操作 成 本 ， 还 要 考虑 数据 在 不 同 主机 之 
间 的 传输 成 本 。 同 时 Hadoop 的 数据 寻 址 方式 也 要 改变 ， 才 能 应 对 庞大 
数据 市 来 的 寻 址 压力 。 


虽说 Hadoop 的 WO 操作 与 传统 方式 已 经 有 了 一 些 变 化 ,但 是 仍 未 脱 
离 传统 的 数据 1/O 操 作 ， 因 此 如 有 果 熟 悉 传 统 的 1/O 操 作 ， 你 会 发 现 本 草 
的 内 容 非常 简单 。 


7.1 LO 操作 中 的 数据 检查 


Apache 的 Hadoop 官 网 上 有 一 个 名 为 Sort900 的 具体 的 Hadoop 配 置 
实例 ， 所 谓 Sort900 束 是 在 900 台 主机 上 对 9TB 的 数据 进行 排序 。 一 般 而 
言 ， 在 Hadoop 和 集群 的 实际 应 用 中 ， 主 机 的 数目 是 很 大 的 ，Sort900 使 用 
了 900 台 主机 ， 而 淘宝 目前 则 使 用 了 1100 台 主机 来 存储 他 们 的 数据 〈 据 
说 计划 扩充 到 1500 台 ) 。 在 这 么 多 的 主机 同时 运行 时 ， 你 会 发 现 主机 
损坏 是 非常 音 见 的 ， 这 束 会 涉及 很 多 程序 上 的 预 处 理 了 。 对 于 本 章 而 
言 ， 就 体现 在 Hadoop 中 进行 数据 完整 性 检查 的 重要 性 上 。 


校 圣 和 方式 是 检查 数据 完整 性 的 重要 方式 。 一 般 会 通过 对 比 新 旧 
校 验 和 来 确定 数据 情况 ， 如 末 两 者 不 同 则 说 明 数 据 已 经 损坏 。 比 如 ， 
在 传输 数据 前 生成 了 一 个 校 验 和 ， 将 数据 传输 到 目的 主机 时 再 次 计算 
校 验 和 ， 如 末 两 次 的 校 验 和 不 同 ， 则 说 明 数 据 已 经 损坏 。 或 者 在 系统 
局 动 时 计算 校 验 和 ， 如 果 其 值 和 硬盘 上 已 经 存在 的 校 验 和 不 同 ， 那 么 
也 说 明 数 据 已 经 损坏 。 校 验 和 不 能 恢复 数据 ， 只 能 检测 错误 。 


Hadoop 采 用 CRC-32 (Cyclic Redundancy Check--- 循 环 元 余 校 验 ， 
32 指 生成 的 校 验 和 是 32 位 的 ) 的 方式 检查 数据 完整 性 。 这 是 一 种 非常 
常见 的 校 验 和 验证 方式 ， 检 和 错 能 力 强 ， 开 销 小 ， 易 于 实现 。 如 果 大 家 
有 兴趣 可 以 自行 查阅 资料 了 解 。 


Hadoop 采 用 HDFS 作 为 默认 的 文件 系统 ， 因 此 我 们 需要 讨论 两 方 
面 的 数据 完整 性 : 


1) 本 地 文件 系统 的 数据 完整 性 ; 
2) HDFS 的 数据 完整 性 。 
1. 对 本 地 文件 VO 的 检查 


在 Hadoop 中 ， 本 地 文件 系统 的 数据 完整 性 由 客户 端 负 责 。 重 点 是 
在 存储 和 读 取 文件 时 进行 校 验 和 的 处 理 。 


具体 做 法 是 ， 每 当 Hadoop 创 建文 件 a 时 ，Hadoop 就 会 同时 在 同一 
文件 夹 下 创建 隐藏 文件 .a.crc， 这 个 文件 记录 了 文件 的 校 验 和 。 和 针对 
数据 文件 的 大 小 ， 每 512 个 字 节 Hadoop 就 会 生成 一 个 32 位 的 校 验 和 (4 
字 节 ) ， 你 可 以 在 src/core/core-default.xml 中 通过 修改 
io.bytes.perchecksum 的 大 小 来 修改 每 个 校 验 和 所 针对 的 文件 的 大 小 。 
如 下 所 示 : 


<property> 

<name>io.bytes.per.checksum< /name > 

<value >512</value> 

<description>The number of bytes per checksum.Must not be 
larger than io.file. 

buffer.size. </description> 

</property> 


一 般 来 说 ， 主 流 的 文件 系统 都 能 在 一 定 程 度 上 保证 数据 的 完整 
性 ， 因 此 有 可 能 你 并 不 需要 Hadoop 的 这 部 分 功能 。 如 有 果 不 需 要 ， 你 可 
以 通过 修改 文件 src/core/core-default.xml 中 fs.file.impl 的 值 来 禁用 校 验 和 
机 制 ， 如 下 所 示 : 

<property> 

<name>fs.file.impl</name> 

<value>org.apache.hadoop.fs.LocalFileSystem</value> 

<description>The FileSystem for file: uris.</description> 

</property> 

把 值 修改 为 org.apache.hadoop.fs.RawLocalFileSystem 即 可 禁用 校 验 
和 机 制 。 


如 有 果 你 只 想 在 程序 中 对 某 些 读 取 禁用 校 验 和 检验 ， 那 么 你 可 以 声 
明 RawLocalFileSystem 实 例 。 例 如 : 


FileSystem fs=new RawFileSystem () ; 
Fs.initialize (null, conf) ; 


在 Hadoop 中 ， 校 验 和 系统 单独 为 一 类 一 
org.apache.hadoop.fs.ChecksumFileSystem， 当 需要 校 验 和 机 制 时 ， 你 可 
以 很 方便 地 调用 它 来 为 你 服务 。 


引用 方法 为 : 


FileSystem rawFS=......; 
FileSystem checksumFS=new ChecksumFileSystem (rawFS) ; 


事实 上 ，org.apache.hadoop.fs.ChecksumFileSystem 是 
org.apache.hadoop.fs.FileSystem 子 类 的 子 类 ， 其 继承 天 系 如 下 : 


java.lang.Object 

-org.apache.hadoop.conf .Configured 
-org.apache.hadoop.fs.FileSystem 
-org.apache.hadoop.fs.FilterFileSystem 
-org.apache.hadoop.fs.ChecksumFileSystem 
-org.apache.hadoop.fs.LocalFileSystem 


如 果 大 家 对 这 些 类 的 作用 感 兴趣 ， 可 以 查阅 Hadoop 的 app 文 档 ， 
地 址 为 http: //hadoop.apache.org/common/docs/current/api/index.html ° 


读 取 文 件 时 ， ee 便 会 调用 
reportChecksumFailure。 这 是 一 个 布尔 类 型 的 函数 ， 此 时 ， 
LocalFileSystem 会 把 这 些 问 题 文件 及 其 校 验 和 一 起 移动 到 同一 台 主 机 
的 次 级 目录 下， 命名 为 bad_files。 一 般 而 言 ， 使 用 者 需要 经 常 处 理 这 
LEOS 


2. 对 HDEFS 的 IO 数据 进行 检查 
一 般 来 说 ，HDEFS 会 在 三 种 情况 下 检验 校 验 和 : 
(1) DataNode 接 收 数据 后 存储 数据 前 


要 了 解 这 种 情况 ， 大 家 先 要 了 解 DataNode 一 般 会 在 什么 时 候 接收 
数据 。 它 接收 数据 一 般 有 两 种 情况 ， 一 是 用户 从 客户 端 上 传 数据 ; 二 


征 DataNode 从 其 他 DataNode 上 接收 数据 。 一 般 来 说 ， 客 户 端 往往 也 是 
DataNode， 不 过 有 时 候 客 户 端 仅仅 是 客户 端 而 已 ， 并 不 是 Hadoop 集 群 
中 的 万 点 。 当 客户 端 上 传 数 据 时 ，Hadoop 会 根据 预定 规则 形成 一 条 数 
据 管线 。 图 7-1 束 是 一 个 典型 的 副本 管线 数据 备份 为 9) 。 数 据 0 是 原 
数据 ， 数 据 1、 数 据 2、 数 据 3 是 备份 。 


口 代表 主机 [zti 
Al 7-1 数据 管线 及 数据 备份 流程 图 


数据 将 按 管线 流动 以 完成 数据 的 上 传 及 备份 过 程 ， 图 7-1 中 顺序 惑 
征 允 在 客户 端 这 个 节点 上 保存 数据 〈 在 这 张 图 上 ， 客 户 端 也 是 Hadoop 
集群 中 的 一 个 证 点 ) 。 注 意 这 个 流动 的 过 程 ， 备 份 1 在 接收 数据 的 同时 
也 会 把 接收 到 的 数据 发 送 给 备份 2 所 在 的 机 器 ， 因 此 如 末 过 程 执行 顺 
利 ， 三 个 备份 形成 的 时 间 相 差不多 〈 相 对 依次 备份 而 言 ) 。 这 里 面 涉 
及 一 个 负载 均衡 的 问题 ， 不 过 这 个 问题 不 是 本 章 的 重点 ， 这 里 不 再 详 
述 。 我 们 在 这 里 只 关心 数据 完整 性 的 问题 。 在 传输 数据 的 最 开始 阶 
段 ，Hadoop 会 简单 地 检查 数据 块 的 完整 性 信息 ， 这 一 点 从 DataNode 的 
源 代码 也 可 以 看 出 。 下 面 是 DataNode 在 各 个 待 传输 节点 之 间 传 输 数 据 


的 主要 函数 transferBlock (Block block, DataNodeInfo xferTargets[]) , 
其 中 检查 的 主要 代码 如 下 : 


// 检 查 数 据 块 是 否 真正 存在 
if (! data.isValidBlock (block) ) { 


return; 


} 

// 检 查 NameNode 上 数据 块 长 度 和 硬 副 数据 块 长度 是 否 匹 配 
long onDiskLength=data.getLength (block) ; 
if (block.getNumBytes () >onDiskLength) { 


return; 


} 
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过 程 中 会 一 同 发 送 数据 头 信息 ， 包 括 块 信息 、 源 DataNode 信 息 、 备 份 
个 数 、 校 验 和 等 ， 可 参考 DataTransfer 中 ran 函数 的 部 分 代码 : 


// 数 据 头 信息 out .writeShort 
(DataTransferProtocol.DATA_TRANSFER_VERSION) ; 
// 数 据 传输 版 本 
out .writeByte (DataTransferProtocol.OP_WRITE_BLOCK) ; 
out ,writeLong (b.getBlockId © ) ; // 块 ID 
out.writeLong (b.getGenerationStamp () ) ; // 生 成 时 间 截 


srcNode.write (out) ; // 写 入 源 DataNode 信 息 
out.writeInt (targets.length-1) ; // 备 份 个 数 
for (int i=1; i<targets.length; i++) { 
targets[i].write (out) ; 


blockSender.sendBlock (out, baseStream, null) ; // 数 据 块 和 校 验 和 


Hadoop 不 会 在 数据 每 流动 到 一 个 DataNode 时 都 检查 校 验 和 ， 它 只 
会 在 数据 流动 到 最 后 一 个 节点 时 才 检 验 校 验 和 。 也 就 是 说 Hadoop 会 在 


备份 3 所 在 的 DataNode 接 受 完 数据 后 检查 校 验 和 。 具 体 核心 代码 如 
BlockSender.java 中 的 部 分 代码 : 


// 通 过 设置 的 DataNode 序 列 流 正常 传输 数据 
IOUtils.readFully (blockIn, buf, dataOff, len) ; 
// 传 输 结 束 后 ， 根 据 配置 的 verifyCchecksum 来 检测 数据 完整 性 
if (verifyChecksum) { 


for (int i=0; i<numChunks; i++) { 

checksum.reset () ; 

int dLen=Math.min (dLeft, bytesPerChecksum) ; 

checksum.update (buf, dOff, dLen) ; 

if (! checksum.compare (buf, cOff) ) { 

throw new ChecksumException ("Checksum failed at"+ 
(offsettlen-dLeft) , len) ; 


这 就 是 从 客户 端 上 传 数据 时 Hadoop 对 数据 完整 性 检测 进行 的 相关 
处 理 。 


DataNode 从 其 他 DataNode 接 收 数据 时 也 是 同样 的 处 理 过 程 。 
(2) 客户 端 读 取 DataNode 上 的 数据 时 


Hadoop 会 在 客户 端 读 取 DataNode 上 的 数据 时 ， 使 用 DFSClient 中 的 
read 函 数 先 将 数据 读 入 到 用 户 的 数据 缓冲 区 ， 然 后 再 检 难 校 验 和 “。 具 
体 代 码 片 段 如 下 : 


// 读 取 数 据 到 缓冲 区 
int nRead=super.read (buf, off, len) ; 
if (dnSock! =nul1l& &gotEOs&& ! eosBefore& &nRead > =0 


& &needChecksum () ) { 
// 检 查 校 验 和 
checksumOk (dnSock) ; 
} 


(3) DataNode 后 台 守 护 进 程 的 定期 检测 


DataNode 会 在 后 台 运 行 DataBlockScanner， 这 个 程序 会 定期 检测 
此 DataNode 上 的 所 有 数据 块 。 从 DataNode.java 中 startDataNode 函 数 的 
Ua ASA] ANE Hh: 


// 根 据 配置 信息 初始 化 DataNode 上 的 定期 数据 扫描 器 

String reason=null; 

if (conf.getInt ("dfs.DataNode.scan.period.hours", 0) <0) { 
reason="verification is turned off by configuration"; 
telse if (! (data instanceof FSDataset) ) { 
reason="verifcation is supported only with FSDataset"; 


if (reason==null) { 

blockScanner=new DataBlockScanner (this, (FSDataset) data, 
conf) ; 

selse{ 

LOG.info ("Periodic Block Verification is disabled 
because"+reason+".") ; 


// 将 扫描 服务 加 入 DataNode 服 务 中 
this.infoServer.addServlet (null, "/blockScannerReport", 
DataBlockScanner.Servlet.class) ; 


this.infoServer.start () ; 


3. 数 据 恢复 策略 


在 Hadoop 上 进行 数据 读 探 作 时 ， 如 果 发 现 某 数据 块 失效 ， 读 操作 
涉及 的 用 户 、DataNode 和 NameNode 都 会 党 试 来 恢复 数据 块 ， 恢 复 成 


功 后 会 设置 标签 ， 防 止 其 他 角色 重复 恢复 。 下 面 以 DataNode 端 的 恢复 
为 例 说 明 恢 复数 据 块 的 详细 步 又， 代码 参 见 DataNode 中 的 recoverBlock 
函数 。 


(1) 检查 已 恢复 标签 


查 一 致 的 数据 块 恢 复 标记 ， 如 采 已 经 恢复 ， 则 直接 跳 过 恢复 阶 


段 。 


// 如 果 数 据 块 已 经 被 回复 ， 则 直接 跳 过 恢复 阶段 

synchronized (ongoingRecovery) { 

Block tmp=new Block () ; 

tmp.set (block.getBlockId () , block.getNumBytes () , 
GenerationStamp .WILDCARD_STAMP) ; 

if (ongoingRecovery.get (tmp) ! =null) { 

String msg="Block"+block+"is already being recovered, "+" 

ignoring this request to recover it."; 

LOG.info (msg) ; 

throw new IOException (msg) ; 

} 

ongoingRecovery.put (block, block) ; 


(2) 统计 各 个 备份 数据 块 恢复 状态 


在 这 个 阶段 ，DataNode 会 检查 所 有 出 错 数 据 块 备份 的 DataNode， 
查看 这 些 市 点 上 数据 块 的 恢复 信息 ， 然 后 将 所 有 版 本 正确 的 数据 块 信 
忆 、DataNode 信 息 作 为 一 条 记录 保存 在 数据 块 记录 表 中 。 


// 检 查 每 个 数据 块 备份 DataNode 
for (DataNodeID id: datanodeids) { 
try{ 


// 获 取 数 据 块 信息 
BlockRecoveryInfo info=datanode.startBlockRecovery (block) ; 
// 数 据 块 已 不 存在 
if (info==null) { 
continue; 


} 

// 数 据 块 版 本 较 晚 

if (info.getBlock () .getGenerationStamp () < 
block.getGenerationStamp () ) { 

continue; 

} 

// 正 确 版 本 数据 块 的 信息 保存 起 来 

blockRecords.add (new BlockRecord (id, datanode, info) ) ; 

if (info.wasRecoveredOnStartup () ) { 

rwrCount++; // 等 待 回复 数 

selse{ 

rbwCount++; // 正 在 恢复 数 


}catch (IOException e) { 
++errorCount; // 出 错 数 

J 

} 


(3) 找 出 所 有 正确 版 本 数据 块 中 最 小 长 度 的 版 本 


在 这 一 步 怠 中 ，DataNode 会 逐个 扫描 上 一 阶段 中 保存 的 数据 块 记 
了 永 ， 首 先 判断 当前 副本 是 否 正 在 恢复 ， 如 采 正 在 恢复 则 跳 过 ， 如 采 不 
征 正 在 恢复 并 且 配 置 参数 设置 了 恢复 需要 保持 原 副 本 长 度 ， 则 将 恢复 
长 度 相同 的 副本 加 入 每 恢复 队列 ， 否 则 将 所 有 版 本 正确 的 副本 加 入 行 
恢复 队列 。 


> 


for (BlockRecord record: blockRecords) { 

BlockRecoveryInfo info=record.info; 

if (! shouldRecoverRwrs&&info.wasRecoveredOnStartup () ) { 
continue; 

} 

if (keepLength) { 

if (info.getBlock () .getNumBytes () ==block.getNumBytes () ) 


{syncList.add (record) ; } 

selse{ 

syncList.add (record) ; 

if (info.getBlock () .getNumBytes () <minlength) { 
minlength=info.getBlock () .getNumBytes () ; 

} 

} 

} 


(4) 副本 同步 


如 果 需 要 保持 副本 长 度 ， 那 么 直接 同步 长 度 相 同 的 副本 即 可 ， 否 
则 以 长 度 最 小 的 副本 同步 其 他 副本 。 


if (! keepLength) { 
block.setNumBytes (minlength) ; 


return syncBlock (block, syncList, targets, closeFile) ; 


与 读 取 本 地 文件 的 情况 相同 ， 用 户 也 可 以 使 用 命令 来 禁用 检验 和 
检验 (从 前 面 的 代码 中 也 可 以 看 出 ， 通 常 在 检查 校 验 和 之 前 都 有 
needChecksum 等 选项 ) 。 有 两 种 方法 可 以 达到 这 个 目的 。 


一 个 是 在 使 用 open () 读 取 文件 前 ， 设 置 FileSystem 中 的 
setVerifyChecksum 值 为 false。 


FileSystem fs=new FileSystem () ; 
Fs.setVerifyChecksum (false) ; 


另 一 个 是 使 用 shell 命 令 ， 比 如 get 命 令 和 copyToLocal 命 令 。 


get 命 令 的 使 用 方法 如 下 所 示 : 
hadoop fs-get[-ignoreCrc][-crc]<src><localdst > 
举 个 例子 : 


hadoop fs-get-ignoreCrc input~/Desktop/ 


get 命 令 会 复制 文件 到 本 地 文件 系统 。 可 用 -ignorecrc 选 项 复制 CRC 
校 验 失败 的 文件 ， 或 者 使 用 -crc 选 项 复制 文件 ， 以 及 CRC 信 息 。 


copyToLocal 的 使 用 方法 如 下 所 示 : 
hadoop fs-copyToLocal[-ignorecrc][-crc]URI<localdst > 
再 举 个 例子 : 


hadoop fs-copyToLocal-ignoreCrc input~/Desktop 


除了 要 限定 目标 路 径 是 一 个 本 地 文件 外 ， 其 他 和 get 命 令 类 似 。 
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的 开销 一 般 情 况 都 是 可 以 接受 的 ， 茜 用 校 验 和 检验 的 主要 原因 是 ， 如 
果 不 蔡 用 校 验 和 检验 ， 就 无 法 下 载 那 些 已 经 损坏 的 文件 来 查看 是 否 可 
以 挽救 ， 而 有 时 候 即 使 是 只 能 挽救 一 小 部 分 文件 也 是 很 值得 的 。 


7.2 ”数据 的 压缩 


对 于 任何 大 容量 的 分 布 式 存储 系统 而 言 ， 文 件 压 缩 都 是 必须 的 ， 
文件 压缩 市 来 了 两 个 好 处 : 


1) 减少 了 文件 所 需 的 存储 空间 ; 
2) 加 快 了 文件 在 网 络 上 或 磁盘 间 的 传输 速度 。 


Hadoop 关 于 文件 压缩 的 代码 几乎 都 在 package 
org.apache.hadoop.io.compress 中 。 本 广 的 内 容 将 会 主要 围绕 这 一 部 分 
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7.2.1 Hadoop 对 压缩 工具 的 选择 


有 许多 压缩 格式 和 压缩 算法 是 可 以 应 用 到 Hadoop 中 的 ， 但 是 不 同 
的 算法 都 有 各 自 的 特点 。 表 7-1 是 Hadoop 中 使 用 的 一 些 压 缩 算 法 ， 表 7- 
2 是 它们 的 压缩 格式 和 特点 。 


表 7-1 压缩 格式 及 编码 解码 医 


压缩 格式 Hadoop 压缩 编 吕 ”解码 器 
DEFLATE org.apache. hadoop.io.compress.DefaultCodec 
Gzip org.apache.hadoop.io.compress.GzipCodec 
bzip2 org.apache_hadoop.io.compress. BZip2Codec 


Zlib org.apache.hadoop.io.compress.zlib 


表 7-2 压缩 格式 和 特点 


a G 


压缩 一 般 都 是 在 时 间 和 空间 上 的 一 种 权衡 。 一 般 来 说 ， 更 长 的 压 
缩 时 间 会 节省 更 多 的 空间 。 不 同 的 压缩 算法 之 间 有 一 定 的 区 别 ， 而 同 
样 的 压缩 算法 在 压缩 不 同类 型 的 文件 时 表现 也 不 同 。jeff 的 试验 比较 报 
告 中 包含 了 面 对 不 同文 件 在 各 种 要 求 (最 佳 压缩 、 最 快速 度 等 ) 下 的 
最 佳 压缩 工具 。 如 果 大 家 感 兴趣 可 以 自行 查阅 ， 地 址 为 
http: //compression.ca/act/act-summary.html (这 个 地 址 是 总 体 评价 ， 


网 站 还 有 不 同 压缩 工具 面 对 不 同类 型 文件 时 的 具体 表现 ) 。 


7.2.2 Rega HA Aa el 


压缩 分 割 和 输入 分 割 是 很 重要 的 内 容 ， 比 如 ， 如 果 需 要 处 理 经 
Gzip 压缩 后 的 5GB 大 小 的 文件 ， 按 前 面 介绍 过 的 分 割 方式 ，Hadoop 会 
将 其 分 割 为 80 块 〈 每 块 64MB， 这 是 默认 值 ， 可 以 根据 需要 修改 ) 。 
但 是 这 是 没有 意义 的 ， 因 为 在 这 种 情况 下 ，Hadoop 不 会 分 割 存 储 Gzip 

压缩 的 文件 ， 程 序 无 法 分 开 读 取 每 块 的 内 容 ， 那 么 也 就 无 法 创建 多 个 
Map 程 序 分 别 来 处 理 每 块 内 容 。 


而 bzip2 的 情况 就 不 一 样 了 ， 它 支持 文件 分 割 ， 用 户 可 以 分 开 读 取 
每 块 内 容 并 分 别处 理 之 ， 因 此 bzip2 压 缩 的 文件 可 分 割 存 储 。 


7.2.3 ”在 MapReduce 程 序 中 使 用 压缩 


在 MapReduce 程 序 中 使 用 压缩 非常 人 简单， 只 和 需 在 它 进行 Job 配 置 时 
配置 好 conf 束 可 以 了 。 


设置 Map 处 理 后 压缩 数据 的 代码 示例 如 下 : 


JobConf conf=new Jobconf () ; 
conf.setBoolean ("mapred.compress.map.output", true) ; 


设置 output 输 出 压缩 的 代码 示例 如 下 : 


JobConf conf=new Jobconf () ; 

conf.setBoolean ("mapred.output.compress", true) ; 

conf.setClass ("mapred.output.compression.codec", 
GzipCodec.class, CompressionCodec.class) ; 


WIS, RARER, TEEN eA aR ae 
对 Map 处 理 后 的 中 间 数 据 进行 压缩 。 对 Map 而 言 ， 它 处 理 后 的 数据 都 
要 输出 到 硬 姐 上 并 经 过 网 络 传输 ， 使 用 数据 压缩 一 般 都 会 加 快 这 一 过 
程 。 对 最 终结 有 果 的 压缩 不 单 会 加 快 数 据 存 储 的 速度 ， 也 会 市 省 便 副 空 


T 
间 。 


下 面 我 们 做 一 个 实验 来 看 看 在 MapReduce 中 使 用 压缩 与 不 使 用 压 
缩 的 效率 差别 。 


先 来 叙述 一 下 我 们 的 实验 环境 : 这 是 由 六 台 主 机 组 成 的 一 个 小 集 
群 (一 台 Master， 三 台 Salve) 。 输 入 文件 为 未 压缩 的 大 约 为 300MB 的 
文件 ， 它 是 由 随机 的 英文 字符 串 组 成 的 ， 每 个 字符 串 都 是 5 位 的 英文 字 
EE (大 小 写 被 认为 是 不 同 的 )  ， 形 如 “AdEfr*"， 以 空格 隔 开 ， 每 50 个 一 
行 ， 共 50 000 000 个 字符 串 。 对 这 个 文件 进行 WordCount。Map 的 输出 
压缩 采用 默认 的 压缩 算法 ，output 的 输出 采用 Gzip 压缩 方法 ， 我 们 关注 
的 内 容 是 程序 执行 的 速度 差别 。 


执行 压缩 操作 的 WordCount 程 序 与 基本 的 WordCount 程 序 相 似 ， 只 
需 在 conf 设 置 时 写 入 以 下 几 行 代 码 : 


conf.setBoolean ("mapred.compress.map.output", true) ; 
conf.setBoolean ("mapred.output.compress", true) ; 
conf.setIfUnset ("mapred.output.compression.type", "BLOCK") ; 
conf.setClass("mapred.output.compres 

sion.codec",GzipCodec.class, 
CompressionCodec.class) ; 


下 面 分 别 执行 编译 打包 两 个 程序 ， 在 运行 时 用 time 命 令 记录 程序 
的 执行 时 间 ， 如 下 所 示 : 


time bin/hadoop jar WordCount.jar WordCount XwTInput xwtOutput 

real 12m41.308s 

time bin/hadoop jar CompressionWordCount. jar 
CompressionWwordCount XwTInput 

xwtOutput2 

real 8m9.714s 


CompressionWordCount. jar 是 带 压 缩 的 WordCount 程 序 的 打包 ， 从 
上 面 可 以 看 出 执行 压缩 的 程序 要 比 不 压缩 的 程序 快 4 分 钟 ， 或 者 说 ， 在 
这 个 实验 环境 下 ， 使 用 压缩 会 使 WordCount 效 率 提高 大 约 三 分 之 一 。 


7.3 数据 的 MO 中 序列 化 操作 


序列 化 是 将 对 象 转化 为 字 万 流 的 方法 ， 或 者 说 用 字 世 流 措 述 对 象 
的 方法 。 与 序列 化 相对 的 是 反 序列 化 ， 反 序列 化 是 将 字 节 流转 化 为 对 


象 的 方法 。 序 列 化 有 两 个 目的 : 
1) 进程 间 通 信 ; 
2) 数据 持久 性 存储 。 


Hadoop 采 用 RPC 来 实现 进程 间 通 信 。 一 般 而 言 ，RPC 的 序列 化 机 
制 有 以 下 特点 : 


1) RR: 紧凑 的 格式 可 以 充分 利用 带宽 ， 加 快 传输 速度 ; 


we 


2) 快速 : 能 减少 序列 化 和 反 序 列 化 的 开销 ， 这 会 有 效 地 减少 进程 
间 通 信 的 时 间 ; 


3) 可 扩展 : 可 以 逐步 改变 ， 是 客户 端 与 服务 器 端 直接 相关 的 ， 例 
如 ， 可 以 随时 加 入 一 个 新 的 参数 方法 调用 ; 


4) 互 操作 性 ， 文 持 不 同 语言 编写 的 客户 端 与 服务 器 交换 数据 。 


Hadoop 也 布 望 数据 持久 性 存储 同样 具有 以 上 这 些 优点 ， 因 此 它 的 
数据 序列 化 机 制 惑 是 依照 以 上 这 些 目 的 而 设计 的 (或 者 说 是 希望 设计 


BURKE) 。 


在 Hadoop 中 ， 序 列 化 处 于 核心 地 位 。 因 为 无 论 是 存储 文件 还 是 在 
计算 中 传输 数据 ， 都 需要 执行 序列 化 的 过 程 。 序 列 化 与 反 序 列 化 的 速 
度 ， 序 列 化 后 的 数据 大 小 等 都 会 影响 数据 传输 的 速度 ， 以 致 影响 计算 
的 效率 。 正 是 因为 这 些 原因 ，Hadoop 并 没有 采用 Java 提 供 的 序列 化 机 
制 (Java Object Serialization) ， 而 是 自己 重新 写 了 一 个 序列 化 机 制 
Writeables。Writeables 具 有 紧 恋 、 快 速 的 优点 (但 不 易 扩 展 ， 也 不 利 
于 不 同 语言 的 互 操作 ) ， 同 时 也 允许 对 自己 定义 的 类 加 入 序列 化 与 反 
序列 化 方法 ， 而 且 很 方便 。 


7.3.1 ”Writable 类 


Writable 是 Hadoop 的 核心 ，Hadoop 通 过 它 定义 了 Hadoop 中 基本 的 
数据 类 型 及 其 操作 。 一 般 来 说 ,无论 是 上 传 下 载 数据 还 是 运行 
Mapreduce 程 序 ， 你 无 时 无 刻 不 需 要 使 用 Writable 类 ， 因 此 Hadoop 中 具 
有 庞大 的 一 类 Writable 类 〈 见 图 7-2) ， 不 过 Writable 类 本 喘 却 很 简单 。 


Writable 类 中 只 定义 了 两 个 方法 : 


// 序 列 化 输出 数据 流 

void write (DataOutput out) throws IOException 
// 反 序列 化 输入 数据 流 

void readFields (DataInput in) throws IOException 


Hadoop 还 有 很 多 其 他 的 Writable 类 。 比 如 WritableComparable、 
ArrayWritable、Two-DArrayWritable 及 AbstractMapWritable， 它 们 直接 
继承 和 目 Writable 类 。 还 有 一 些 类 ， 如 BooleanWritale、ByteWritable 等 ， 
它们 不 是 直接 继承 于 Writable 类 ， 而 是 继承 和 目 WritableComparable 类 。 
Hadoop 的 基本 数据 类 型 就 是 由 这 些 类 构成 的 。 这 些 类 构成 了 以 下 的 层 
次 关系 (如 图 7-2 所 示 ) ° 
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7-2. ”Writable 类 层次 关系 图 


1.Hadooph) Lat 


WritableComparable 是 Hadoop 中 非常 重要 的 接口 类 。 它 继承 目 
org.apache.hadoop.io.Writable 类 和 java.lang.Comparable 类 。 


WritableComparator7= WritablecomparableH) HEX as 


at, BE 
RawComparator 针 对 WritableComparate 类 的 一 个 通用 实现 ， 而 
RawComparator 则 继承 自 java.util.Comparator， 它 们 之 间 的 关系 如 图 7-3 


所 A 


图 7-3 ”WritableComparable 和 WritableComparablor 类 层次 关系 


这 两 个 类 对 MapReduce 而 言 至 天 重要 ， 大 家 都 知道 ，MapReduce 


执行 时 ，Reducer (执行 Reduce 任 务 的 机 器 ) > 
key/value 对 ， 并 日 在 Reduce 之 前 会 有 一 个 排序 过 程 ， 


这 些 键 值 的 比较 
都 是 对 WritableComparate 类 型 进行 的 。 


Hadoop 在 RawComparator 中 实现 了 对 未 反 序 列 化 对 象 的 读 取 。 这 
样 做 的 好 处 是 ， 可 以 不 必 创 建 对 象 束 能 比较 想 要 比较 的 内 容 ( 


多 是 key 


值 ) ， 从 而 省 去 了 创建 对 象 的 开销 。 例 如 ， 大 家 可 以 使 用 如 下 函数 ， 
对 指定 了 开始 位 置 (sl 和 s2) 及 固定 长 度 (117012) 的 数组 进行 比较 : 


public interface RawComparator<T>extends Comparator<T>{ 

public int compare (byte[]b1, int s1, int 11, byte[]b2, int s2, 
int 12) ; 

} 


WritableComparator 是 RawComparator 的 子 类 ， 在 这 里 ， 添 加 了 一 
个 默认 的 对 象 进行 反 序列 化 ， 并 调用 了 比较 函数 compare () 进行 比 
较 。 下 面 是 WritableComparator 中 对 固定 字 节 反 序列 化 的 执行 情况 ， 以 
及 比较 的 实现 过 程 : 


public int compare (byte[]b1, int s1, int 11, byte[]b2, int s2, 
int 12) { 

try{ 

buffer.reset (b1, s1, 11) ; //parse key1 

key1.readFields (buffer) ; 

buffer.reset (b2, s2, 12) ; //parse key2 

key2.readFields (buffer) ; 

}catch (IOException e) { 

throw new RuntimeException (e) ; 


} 


return compare (key1, key2) ; //compare them 


2.Writable 类 中 的 数据 类 型 


(1) 基本 类 


Writable 中 封装 有 很 多 Java 的 基本 类 ， 如 表 7-3 所 示 。 


表 7-3 Writable 中 的 Java 基本 类 
Java 基本 类 型 Writable 中 的 类 型 序列 化 后 字 节 数 


ViongWritable 1 — 9 


double DuobleWnitable 8 


其 中 最 简单 的 要 数 Hadoop 中 对 Boolean 的 实现 ， 如 下 所 示 : 


package cn.edn.ruc.cloudcomputing.book.chapter07; 

import java.io.* 

public class BooleanWritable implements WritableComparable{ 
private boolean value; 

public Booleanwritable () {}; 

public Booleanwritable (boolean value) { 

set (value) ; 


public void set (boolean value) { 
this.value=value; 


} 

public boolean get () { 

return value; 

} 

public void readFields (DataInput in) throws IOException{ 
value=in.readBoolean () ; 


public void write (DataOutput out) throws IOException{ 
out.writeBoolean (value) ; 

} 

public boolean equals (Object o) { 

if (! (o instanceof Booleanwritable) ) { 

return false; 

} 

Booleanwritable other= (Booleanwritable) o; 

return this.value==other .value; 


} 


public int hashCode () { 
return value?0: 1; 


public int compareTo (Object o) { 
boolean a=this.value; 

boolean b= ( (BooleanWritable) o) .value; 
return ( (a==b) ?0: (a==false) ?-1: 1) ; 


} 
public String toString () { 
return Boolean.toString (get () ) ; 


public static class Comparator extends WritableComparator{ 
public Comparator () { 
super (Booleanwritable.class) ; 


public int compare (byte[]b1, int s1, int 11, 
byte[]b2, int s2, int 12) { 

boolean a= (readInt (b1, s1) ==1) ?true: false; 
boolean b= (readInt (b2, s2) ==1) ?true: false; 
return ( (a==b) ?0: (a==false) ?-1: 1) ; 

} 

} 


static{ 
WritableComparator.define (Booleanwritable.class, new Comparator 


Cae 
} 
} 

可 以 看 到 Hadoop 直 接 将 boolean 写 入 到 字 节 流 (out.writeBoolean 
(value) ) 中 了 ， 并 没有 采用 Java 的 序列 化 机 制 。 同 时 ， 除 了 构造 范 
数 、set () NBL > get O 画 数 等 外 ，Hadoop 还 定义 了 三 个 用 于 比较 的 
函数 : equals () 、compareTo () 、compare () 。 前 两 个 很 简单 ， 第 
三 个 束 是 前 文中 重点 介绍 的 比较 器 。Hadoop 中 封装 定义 的 其 他 Java 基 
本 数据 类 型 (如 Boolean、byte、int、float、long、double) 都 是 相似 

的 。 


如 果 大 家 对 Java 流 处 理 比较 了 解 的 话 可 能 会 知道 ，Java 流 处 理 中 
并 没有 DataOutput.writeVInt () 。 实 际 上 ， 这 是 Hadoop 目 己 定义 的 变 
长 类 型 (Vint, VLong) ， 而 且 VInt 和 VLong 的 处 理 方式 实际 上 是 一 样 
HJ ° 


public static void writeVInt (DataOutput stream, int i) throws 
IOException{ 
writeVLong (stream, i) ; 


} 


Hadoop 对 VLong 类 型 的 处 理 方法 如 下 : 


public static void writeVLong (DataOutput stream, long i) throws 
IOException{ 

if (i>=-112&&i<=127) { 

stream.writeByte ( (byte) i) ; 

return; 

} 

int len=-112; 

if (i<o) { 

i4=-1L; //take one's complement ' 

len=-120; 

} 

long tmp=i; 

while (tmp! =0) { 

tmp=tmp> > 8; 


len- -; 

} 

stream.writeByte ( (byte) len) ; 

len= (len<-120) ?- (len+120) : - (len+112) ; 


for (int idx=len; idx! =0; idx--) { 

int shiftbits= (idx-1) *8; 

long mask=0xFFL< <shiftbits; 

stream.writeByte ( (byte) ( (i&mask) >>shiftbits) ) ; 
} 

} 


上 面 代码 的 意思 是 如 果 数 值 较 小 (在 -112 和 127 之 间 ) , HARE 
接 将 这 个 数值 写 入 数据 流 内 (stream.writeByte ( (byte) i) ) 。 如 果 
不 是 ， 则 先 用 len 表 示 字 市 长 度 与 正 负 ， 并 写 入 数据 流 中 ， 然 后 在 其 后 
写 入 这 个 数值 。 


(2) 其 他 类 
下 面 将 按照 先 易 后 难 的 顺序 一 一 讲解 。 


1) NullWritable。 这 是 一 个 占 位 符 ， 它 的 序列 化 长 度 为 零 ， 没 有 
数值 从 流 中 读 出 或 是 写 入 流 中 。 


public void readFields (DataInput in) throws IOException{} 
public void write (DataOutput out) throws IOException{} 


在 任何 编程 语言 或 编程 框架 时 ， 占 位 符 都 是 很 有 用 的 ， 这 个 类 型 
不 可 以 和 其 他 类 型 比较 ， 在 MapReduce， 你 可 以 将 任何 键 或 值 设 为 衬 
值 。 


2) BytesWritable 和 ByteWritable。ByteWritable 是 一 个 二 进 制 数据 
的 封装 。 它 的 所 有 方法 都 是 基于 单个 Byte 来 处 理 的 。BytesWritable 是 
一 个 二 进 制 数 据 数 组 的 封 效 。 它 对 输出 流 的 处 理 如 下 所 示 : 
public Byteswritable (byte[]bytes) { 


this.bytes=bytes; 
this.size=bytes.length; 


public void write (DataOutput out) throws IOException{ 
out.writeInt (size) ; 
out.write (bytes, 0, size) ; 


} 
可 以 看 到 ， 它 首先 会 把 这 个 二 进 制 数据 数组 的 长 度 写 入 输入 尝 
中 ， 这 个 长 度 一 般 征 在 声明 时 所 获得 的 二 进 制 数据 数组 的 实际 长 度 。 
当然 这 个 值 也 可 以 人 为 设 是 。 如 果 要 把 长 度 为 3、 位 置 为 129 的 字 节 数 
组 序列 化 ， 根 据 程序 可 知 ， 结 果 应 为 : 


Size=00000003 bytes[]={ (01) , (02) , (09) } 


BaF AE Le: 


00000003010209 


3) Text。 这 可 能 是 这 几 个 和 目 定义 类 型 中 相对 复杂 的 一 个 了 。 实 际 
上 ， 这 是 Hadoop 中 对 string 类 型 的 重 写 ， 但 是 又 与 其 有 一 些 不 同 。Text 
使 用 标准 的 UTF-8 编 码 ， 同 时 Hadoop 使 用 变 长 类 型 VInt 来 存储 字符 
串 ， 其 存储 上 限 是 2GB 。 


Text 类 型 与 String 类 型 的 主要 差别 如 下 : 


String 的 长 度 定 义 为 String 包 含 的 子 符 个 数 ，Text 的 长 度 定义 为 


UTF-8 编 码 的 字 节 数 。 


String 内 的 indexOf () 方法 返回 的 是 char 类 型 


字符 3 的 位 置 就 是 2 (字符 1 的 位 置 是 0) ; 而 Text 的 find 


FEAR (1234) ， 
() 方法 返回 的 是 字 节 偏 移 量 。 


字符 的 索引 ， 比 如 字 


String 的 charAt () 方法 返回 的 是 指定 位 置 的 char 字 符 ;， 而 Text 的 


charAT () 方法 需要 指定 偏 移 量 。 


另外 ，Text 内 定义 了 一 个 方法 toString () ， 它 用 于 将 Text 类 型 转 


化 为 String 类 型 。 


看 如 下 这 个 例子 : 


package cn.edn.ruc.cloudcomputing.book.chapter07; 


import java.io.*; 

import org.apache.hadoop.io.*; 

public class MyMapre{ 

public static void strings () { 

String s="\u0041\U00DF\u6771\UD801\UDCOO0"; 
System.out.println (s.length () ) ; 


System.out.println (s.indexOf ("\u0041") ) ; 
System.out.println (s.indexOf ("\UuO@DF") ) ; 
System.out.println (s.indexOf ("\u6771") ) ; 
System.out.println (s.indexOf ("\uD801\uDCOO0") ) ; 


public static void texts () { 


Text t=new Text ("\u0041\UO9ODF\U6771\UD801\UDCOO") ; 


System.out.println (t.getLength () ) ; 
System.out.println (t.find ("\u9041") ) ; 
System.out.println (t.find ("\uQODF") ) ; 
System.out.println (t.find ("\u6771") ) ; 
System.out.printin (t.find ( 


public static void main (String args[]) { 
strings () ; 

texts () ; 

} 

T; 


"\uD801\UDCOO") ) ; 
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上 面 例子 可 以 验证 前 面 所 列 的 那些 差别 。 


4) ObjectWritable。ObjectWritable 是 一 种 多 类 型 的 封装 。 可 以 适 
用 于 Java 的 基本 类 型 、 字 符 串 等 。 不 过 ， 这 并 不 是 一 个 好 方法 ， 因 为 
Java 在 每 次 被 序列 化 时 ， 都 要 写 入 被 封装 类 型 的 类 名 。 但 是 如 果 类 型 
过 多 ， 使 用 静态 数组 难以 表示 时 ， 采 用 这 个 类 仍 是 不 错 的 做 法 。 


5) ArrayWritable 和 TwoDArrayWritable。ArrayWritable 和 
TwoDArrayWritable， 顾 名 思 义 ， 是 针对 数组 和 二 维 数组 构建 的 数据 类 
型 。 这 两 个 类 型 声明 的 变量 需要 在 使 用 时 指定 类 型 ， 因 为 


ArrayWritable 和 TwoDArrayWritable 并 没有 空 值 的 构造 印 数 。 


ArrayWritable a=new Arraywritable (Intwritable.class) 


同样 ， 在 声明 它们 的 子 类 时 ， 必 须 使 用 super () 来 指定 
ArrayWritable 和 TwoDArrayWritable 的 数据 类 型 。 


public class IntArrayWritable extends ArraywWritable{ 


public IntArraywritable () { 
super (IntWritable.class) ; 
} 

} 


一 般 情况 下 ，ArrayWritable 和 TwoDArrayWritable 都 有 set () 和 get 
O KŠA, EH Text H Stringit, ENEE ER T DEREKA 
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toArray () 。 但 是 它们 没有 提供 比较 器 comparator， 这 点 需 
同时 从 TwoDArrayWritable 的 write 和 readFields 可 以 看 出 是 横 回 读 写 的 ， 
同时 还 会 读 写 每 一 维 的 数据 长 度 。 


public void readFields (DataInput in) throws IOException{ 
for (int i=0; i<values.length; i++) { 

for (int j=0; j<values[i].length; j++) { 
value.readFields (in) ; 
values[i][j]=value; // 保 存 读 取 的 数据 
} 


} 


public void write (DataOutput out) throws IOException{ 
for (int i=0; i<values.length; i++) { 
out.writeInt (values[i].length) ; 


for (int i=0; i<values.length; i++) { 
for (int j=0; j<values[i].length; j++) { 
values[i][j].write (out) ; 


} 
} 
6) MapWritable#lSortedMapWritable ° MapWritable#ll 
SortedMapWritables} 5] java.util.Map () #ljava.util.SortedMap () 的 
实现 。 


这 两 个 实例 是 按照 如 下 格式 声明 的 : 


private Map<writable, Writable>instance; 
private SortedMap<WritableComparable, Writable>instance; 


我 们 可 以 用 Hadoop 定 义 的 Writable 类 型 来 填充 key 或 value， 也 可 以 
使 用 自己 定义 的 Writable 类 型 来 填充 。 


在 java.util.Map () 和 java.util.SortedMap () 中 定义 的 功能 ， 如 
getKey () 、getValue () 、keySet () 等 ， 在 这 两 个 类 中 均 有 实现 。 
Map 的 使 用 也 很 简单 ， 见 如 下 程序 ， 需 要 注意 的 是 ， 不 同 key 值 对 应 的 
value 数 据 类 型 可 以 不 同 。 


package cn.edn.rm.cloodcomputing.book.chapter07; 
import java.io.*; 

import java.util.*; 

import org.apache.hadoop.io.*; 

public class MyMapre{ 

public static void main (String args[]) throws I0Exception{ 
Mapwritable a=new MapWritable () ; 

a.put (new IntWritable (1) , new Text ("Hello") ) ; 
a.put (new IntWritable (2) , new Text ("World") ) ; 
MapWritable b=new MapWritable () ; 
WritableUtils.cloneInto (b, a) ; 
System.out.println (b.get (new IntwWritable (1) ) ) ; 
System.out.println (b.get (new IntWritable (2) ) ) 
} 

} 

显示 结果 为 

Hello 

World 


7) CompressedWritable。CompressedWritable 是 保存 压缩 数据 的 数 
据 结构 。 跟 之 前 介绍 的 数据 结构 不 同 ， 它 实现 Writable 接 口 ， 主 要 面 回 
在 Map 和 Reduce 阶 段 中 的 大 数据 对 象 操作 ， 对 这 些 大 数据 对 象 的 压缩 
能 够 大 大 加 快 数 据 的 传输 速率 。 它 的 主要 数据 结构 是 一 个 byte 数 组 ， 
提供 给 用 户 必 须 实 现 的 函数 是 readFieldsCompressed 和 
writeCompressed。CompressedWritable 在 读 取 数据 时 先 读 取 二 进 制 字 有 
流 ， 然 后 调用 ensureInflated 函 数 进行 解压 ， 在 写 数据 时 ， 将 输出 的 二 
进 制 字 克 流 封 朔 成 压缩 后 的 二 进 制 字 节 流 。 


8) GenericWritable。 这 个 数据 类 型 是 一 个 通用 的 数据 封装 类 型 。 
由 于 是 通用 的 数据 封装 ， 它 需要 保存 数据 和 数据 的 原始 类 型 ， 其 数据 
结构 如 下 : 
private static final byte NOT_SET=-1; 
private byte type=NOT_SET; 


private Writable instance; 
private Configuration conf=null; 


由 于 其 特殊 的 数据 结构 ， 在 读 写 时 也 需要 读 写 对 应 的 数据 结构 : 
实际 数据 和 数据 类 型 ， 并 且 要 保证 固定 的 顺序 。 
public void readFields (DataInput in) throws IOException{ 


// 先 读 取 数据 类 型 
type=in.readByte () ; 


// 再 读 取 数 据 


instance.readFields (in) ; 


public void write (DataOutput out) throws IOException{ 


if (type==NOT_SET| | instance==nul1) 
throw new IOException ("The GenericWritable has NOT been set 
correctly. type=" 

+type+", instance="+instance) ; 

// 先 写 出 数据 类 型 
out .writeByte (type) ; 
// 在 写 出 数据 
instance.write (out) ; 


} 


9) VersionedWritable。VersionedWritable 是 一 个 抽象 的 版 本 检查 
类 ， 它 主要 保证 在 一 个 类 的 发 展 过 程 中 ， 使 用 旧 类 编写 的 程序 仍然 能 
由 新 类 解析 处 理 。 在 这 个 类 的 实现 中 只 有 简单 的 三 个 函数 : 


// 返 回 版 本 信息 
public abstract byte getVersion () ; 
// 写 出 版 本 信息 
public void write (DataOutput out) throws IOException{ 
out.writeByte (getVersion () ) ; 


} 

// 读 入 版 本 信息 
public void readFields (DataInput in) throws IOException{ 
byte version=in.readByte () ; 

if (version! =getVersion () ) 

throw new VersionMismatchException (getVersion () , version) ; 


} 


7.3.2 ”实现 目 己 的 Hadoop 数 据 类 型 


实现 目 定 义 的 Hadoop 数 据 类 型 具有 非常 重要 的 意义 。 虽 然 Hadoop 
已 经 定义 了 很 多 有 用 的 数据 类 型 ， 但 在 实际 应 用 中 ， 我 们 总 是 需要 定 
义 目 己 的 数据 类 型 以 满足 程序 的 需 


我 们 定义 一 个 简单 的 整数 对 < LongWritable, LongWritable > ， 这 
个 类 可 以 用 来 记录 文章 中 单词 出 现 的 位 置 ， 第 一 个 LongWritable 代 表 
行 数 ， 第 二 个 LongWritable 代 表 它 是 该 行 的 第 儿 个 单词 。 定 义 
NumpPair， 如 下 所 示 : 


package cn.edn.ruc.cloudcomputing.book.chapter07; 

import java.io.*; 

import org.apache.hadoop.io.*; 

public class NumPair implements WritableComparable <NumPair > { 
private LongWritable line; 

private LongWritable location; 

public NumPair () { 

set (new LongWritable (0) , new LongWritable (0) ) ; 


public void set (Longwritable first, Longwritable second) 


this.line=first; 

this.location=second; 

public NumPair (Longwritable first, LongwWritable second) { 
set (first, second) ; 


public NumPair (int first, int second) { | 
set (new Longwritable (first) , new Longwritable (second) ) ; 


public Longwritable getLine () { 
return line; 


} 


public Longwritable getLocation () { 

return location; 

} 

@Override 

public void readFields (DataInput in) throws IOException 
{ 

line.readFields (in) ; 

location.readFields (in) ; 

} 

@Override 

public void write (DataOutput out) throws IOException{ 
line.write (out) ; 

location.write (out) ; 


public boolean equals (NumPair o) { 

if ( (this.line==o.line) && (this.location==o0.location) ) 
return true; 

return false; 

} 

@Override 

public int hashCode () { 

return line.hashCode () *13+location.hashCode () ; 

} 

@Override 

public int compareTo (NumPair o) { 

if ( (this.line==o.line) && (this.location==0.location) ) 
return 0; 

return-1; 

} 

} 


7.4 针对 Mapreduce 的 文件 类 


Hadoop 定 义 了 一 些 文件 数据 结构 以 适应 Mapreduce 编 程 框 架 的 需 
要 ， 其 中 SequenceFile 和 MapFile 两 种 类 型 非常 重要 ，Map 输 出 的 中 间 
结果 就 是 由 它们 表示 的 。 其 中 ，MapFile 是 经 过 排序 并 带 有 索引 的 


SequenceFile ° 


7.4.1 SequenceFile 关 


SequenceFile 记 录 的 是 key/value 对 的 列表 ， 是 序列 化 之 后 的 二 进 制 
文件 ， 因 此 是 不 能 直接 查看 的 ， 我 们 可 以 通过 如 下 命令 来 查看 这 个 文 
件 的 内 容 。 


WS 


hadoop fs-text MySequenceFile (你 的 SequenceFile 文 件 


Sequence 有 三 种 不 同类 型 的 结构 : 
1) 未 压缩 的 key/value 对 ; 
2) 记录 压缩 的 Key/value 对 〈 这 种 情况 下 只 有 value 被 压缩 ) ; 


3) Block 压 缩 的 key/value 对 〈 在 这 种 情况 下 ，key 与 value 被 分 别 记 
录 到 块 中 并 压缩 ) 。 


下 面 详细 介绍 它们 的 结构 。 


1. 未 压缩 和 只 压缩 value 的 SequenceFile 数 据 格式 


未 压缩 和 只 压缩 value 的 SequenceFile 数 据 格式 基本 是 相同 的 。 


Header 是 头 ， 它 记录 的 内 容 如 图 7-4 所 示 ， 现 在 一 一 对 其 进行 解 


Header 
Record 1 Record legth 
Sync-marker á 


7-4 ”SequenceFile 数 据 格式 (未 压缩 和 Record 压 缩 格 式 ) 


version (版 本 号 ) : 这 是 一 个 形 如 SEQ4 或 SEQ5 的 字 节 数组 ， 一 


Aa ae T 


keyClassName (key 类 名 ) 和 valueClassName (value 类 名 ) : 这 两 
个 都 是 String 类 型 ， 记 录 的 是 key 和 value 的 数据 类 型 ， 


compression (E) : 这 是 一 个 布尔 类 型 ， 它 记录 的 是 在 这 个 文 


件 中 压缩 是 否 启 用 ; 


blockCompression (Block 压 缩 ) : 布尔 类 型 ， 记 录 Block 压 缩 是 否 
启用; 


compressor class (#4828) : 这 是 Hadoop 内 封装 的 用 于 压缩 key 和 
value 的 代码 ; 


metadata (元 数据 ) : 用 于 记录 文件 的 元 数据 ， 文 件 的 元 数据 是 
一 个 < 属 性 名 s (E> THIS; 


Record: 它 征 数据 内 容 ， 其 内 容 简单 明了 ， 相 信 大 家 看 岁 惑 很 容 
AHE 


Sync-marker: 它 是 一 个 标记 ， 可 以 允许 程序 快速 找到 文件 中 随机 
的 一 个 点 。 它 可 以 使 


MapReduce 程 序 更 有 效率 地 分 割 大 文件 。 


需要 注意 的 是 ，Sync-marker 每 隔 儿 百 个 字 区 会 出 现 一 次 ， 因 此 最 
后 的 SequenceFile 会 是 形 如 图 7-5 所 示 的 序列 文件 。 


[Header | Recorder | Recorder |Recarder | Sync | Recordar | Recorde f 
7-5 SequenceFile 数 据 存储 示例 
Sync 出 现 的 位 置 取决 于 字 市 数 ， 而 不 是 间 阳 的 Recorder 的 个 数 。 


从 上 面 的 内 容 可 以 知道 ， 未 压缩 与 只 压缩 value 的 SequenceFile 数 
据 格 式 有 两 点 不 同 ， 一 是 compression (是 否 压 缩 ) 的 值 不 同 ， 二 是 
value 存 储 的 数据 是 否 经 过 了 压缩 不 同 。 


2.Block 压 缩 的 SedquenceFile 数 据 格 式 


Block 压 缩 的 SequenceFile 数 据 格式 与 上 面 两 种 也 很 相似 ， 它 们 的 
头 与 上 面 是 一 样 的 ， 同 时 也 会 标记 一 个 Sync-marker。 不 过 它们 的 
Recorder 格 式 是 不 同 的 ， 并 且 Sync-marker 是 标记 在 每 个 块 前 面 的 。 下 
面 是 Block 压 缩 的 SequenceFile 的 Recorder 格 式 。 如 图 7-6 所 示 。 


Compressed key-lengths block-size 
Compressed key-lengths block 
Compressed keys block-size 


Compressed keys block 


Compressed value-lengths block-size 


Compressed value-lengths block 
Compressed values block-size 


Compressed values block 


7-6 。 SequenceFile 数 据 格式 Recorder 部 分 《Block 压 缩 ) 


Block 压 缩 一 次 会 压缩 多 个 Recorder Recorder 在 达到 一 个 值 时 被 记 
孙 ， 这 个 值 是 由 io.seqfile.compress.blocksize 定 义 的 。Block 压 缩 的 
SequenceFile 是 形成 图 7-7 所 示 的 序列 文件 。 


| Header | Sync | Recorder | Sync | Recorder | Sync [Recorder ] 


7-7 SequenceFile 数 据 存储 示例 (Block: t) 


我 们 可 以 通过 编写 程序 生成 读 取 SequenceFile 文 件 来 实践 一 下 。 


程序 如 下 (注意 这 个 程序 生成 的 数据 大 概 会 有 150MB， 需 要 的 话 
可 以 减少 循环 次 数 以 缩短 运行 时 间 ) : 


package cn.edn.ruc.cloudcomputing.book.chapter07; 
import java.io. IOException; 

import java.net.URI; 

import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.”*; 

import org.apache.hadoop.io.*; 

public class SequenceFilewriteDemo{ 

private static String[ ]myValue={ 

"hello world", 

"bye world", 

"hello hadoop", 

"bye hadoop" 

}; 

public static void main (String[]args) throws IOException{ 
String uri=" 你 想 要 生成 的 SequenceFile 的 位 置 "，; 

Configuration conf=new Configuration () ; 

FileSystem fs=FileSystem.get (URI.create (uri) , conf) ; 
Path path=new Path (uri) ; 

IntWritable key=new IntWritable () ; 

Text value=new Text () ; 

SequenceFile.Writer writer=null; 

try{ 

writer=SequenceFile.createWriter (fs, conf, path, key.getClass 
, value. 

getClass () ) ; 

for (int i=0; i<5000000; i++) { 

key.set (5000000-i) ; 

value.set (myValue[i%myValue.length]) ; 

writer.append (key, value) ; 


} 
}finally{ 
IOUtils.closeStream (writer) ; 


} 
} 
} 


程序 结果 是 生成 了 一 个 SequenceFile 文 件 ， 你 可 以 使 用 前 文 提 到 的 
令 : Hadoop fs-text 你 的 SequenceFile 文 件 名 ， 来 查看 这 个 文件 。 因 为 
容 太 多 只 展示 一 部 分 ， 其 内 容 如 下 ; 


5000000 hello world 


4999999 bye world 
4999998 hello hadoop 
4999997 bye hadoop 
4999996 hello world 
4999995 bye world 
4999994 hello hadoop 
4999993 bye hadoop 
4999992 hello world 
4999991 bye world 

10 hello hadoop 

bye hadoop 

hello world 

bye world 

hello hadoop 

bye hadoop 

hello world 

bye world 

hello hadoop 

bye hadoop 
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这 个 程序 的 关键 是 下 面 这 段 代 码 : 


SequenceFile.Writer writer=null; 

writer=SequenceFile.createWriter (fs, conf, path, key.getClass 
() , value.getClass () ) ; 

writer.append (key, value) ; 


我 们 需要 声明 SequenceFile.Writer 类 并 使 用 函数 
SequenceFile.createWriter () 来 给 它 赋 值 。 这 个 函数 中 至 少 要 指定 四 
个 参数 ， 即 输出 流 (fs) 、conf 对 象 (conf) 、key 的 类 型 、value 的 类 
型 ， 同 时 它 还 有 很 多 重 构 芳 数 ， 可 以 设置 压缩 等 。 然 后 我 们 就 可 以 使 
用 writer.append () 来 向 流 中 写 入 key/value 对 了 。 


读 取 SequenceFile 文 件 内 容 的 程序 也 很 简单 ， 如 下 所 示 。 


SequenceFileReadFile 


package cn.edn.ruc.cloudcomputing.book.chapter07; 

import java.io. IOException; 

import java.net.URI; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.FileSystem; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.I0Utils; 

import org.apache.hadoop.io.SequenceFile; 

import org.apache.hadoop.io.Writable; 

import org.apache.hadoop.util.ReflectionUtils; 

public class SequenceFileReadFile{ 

public static void main (String[]args) throws IOException{ 

String uri=" 你 想 要 读 取 的 SequenceFile 所 在 位 置 "; 

Configuration conf=new Configuration () ; 

FileSystem fs=FileSystem.get (URI.create (uri) , conf) ; 

Path path=new Path (uri) ; 

SequenceFile.Reader reader=null; 

try{ 

reader=new SequenceFile.Reader (fs, path, conf) ; 

writable key= (writable) ReflectionUtils.newInsta 

nce (reader.getKeyClass () , conf) ; 

Writable value= (WritableReflectionUtils.newInsta 

nce (reader.getValueClass () , conf) ; 

long position=reader.getPosition () ; 

while (reader.next (key, value) ) { 

String syncSeen=reader.syncSeen () ?"*"; ""; 

System.out.printf ("[%s%s]\t%s\t%s\n", position, syncSeen, key, 
value) ; 

position=reader.getPosition () ; //beginning of next record 


} 

}finally{ 

IOUtils.closeStream (reader) ; 
} 

} 

} 


读 取 SequenceFile 文 件 的 程序 关键 是 以 下 代码 : 


SequenceFile.Reader reader=null; 
reader=new SequenceFile.Reader (fs, path, conf) ; 


reader.next (key, value) ; 

Writable key= (Writable) ReflectionUtils.newInstance (reader. 
getKeyClass () , conf) ; 

writable value= (writable) ReflectionUtils.newInstance (reader. 
getValueClass () , conf) ; 


很 简单 ， 声 明 reader 并 赋值 之 后 ， 我 们 可 以 通过 getKeyClass () 
gs () ae 并 通过 ReflectionUtils 直 接 
实例 化 对 象 ， 然 后 就 可 以 通过 readernext () 跳 到 下 一 个 key/value 值 ， 
以 遇 历 文件 中 所 有 的 key/value 对 。 


根据 前 面 所 述 ， 生 成 SequenceFile 文 件 时 是 可 以 采用 压缩 方式 的 ， 

下 面 就 采用 Block 压 缩 方式 生成 SequenceFile 文 件 。 此 程序 与 生成 不 压 

缩 SequenceFile 文 件 的 程序 基本 相同 ， 只 是 在 SequenceFile.createWrite 
O 时 修改 了 一 下 设置 ， 如 下 所 示 : 


SequenceFile.createWriter (fs,conf,path,key.getClass () , value. 
getClass () , CompressionType.BLOCK) 


然后 查看 生成 的 两 个 文件 的 大 小 : 


-rwxrwxrwx 1 u u 10214801 2011-01-14 16: 31 MySequenceOutput 
-rwxrwxrwx 1 u u 159062628 2011-01-14 16: 25 MySequenceOutput2 


文件 大 小 是 以 byte 显 示 的 ， 可 以 看 到 ， 采 用 Block 压 缩 的 文件 是 不 
压缩 的 16 左右 。 


FMT AY DR Nava xc ee antsy , FEI TTI A time Fu Bic Se 
这 两 个 jar 包 的 执行 时 间 ， 如 下 所 示 : 


// 这 是 不 使 用 压缩 的 程序 

time hadoop jar UnComSequenceFilewriteFile. jar UnComSequence 
FileWriteFile 

real 0m47.668s 

// 这 是 使 用 压缩 的 程序 

time hadoop jar ComSequenceFileWriteFile.jar ComSequenceFile 
WriteFile 

real Om7.539s 


上 面 记录 了 程序 具体 运行 的 时 间 ， 以 训 秒 为 单位 。 可 以 看 出 ， 使 
用 压缩 的 程序 其 执行 效率 要 远 远 高 于 不 使 用 压缩 的 程序 。 我 们 推测 这 
个 时 间 的 差距 主要 是 受 硬盘 写 入 时 间 的 影响 ， 再 加 上 传输 10MB 的 数 
据 所 花 的 时 间 要 远 远 少 于 传输 159MB 的 数据 的 。 这 就 能 很 好 地 解释 为 
什么 在 MapReduce 程 序 中 采用 压缩 会 提高 效率 了 (因为 一 般 而 言 ， 这 
是 Map 的 输出 文件 ) 。 


7.4.2 ”MapFile 类 


下 : 


MapFile 的 使 用 与 SequenceFile 类 似 ， 建 立 MapFile 文 件 的 程序 如 


MapFileWriteFile. java 


package cn.edn.ruc.cloudcomputing.book.chapter07; 
import java.io.IOException; 

import java.net.URI; 

import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.”*; 

import org.apache.hadoop.io.*; 

public class MapFileWriteFile{ 

private static final String[ ]myValue={ 

"hello world", 

"bye world", 

"hello hadoop", 

"bye hadoop" 

}; 

public static void main (String[]args) throws IOException{ 
String uri=" 你 想 要 生成 SequenceFile 的 位 置 "; 
Configuration conf=new Configuration () ; 

FileSystem fs=FileSystem.get (URI.create (uri) , conf) ; 
Intwritable key=new IntWritable () ; 

Text value=new Text () ; 

MapFile.Writer writer=null; 

try{ 

writer=new MapFile.writer (conf, fs, uri, key.get 
Class () , value.getClass () ) ; 

for (int i=0; i<500; i++) { 

key.set (i) ; 

value.set (myValue[i%myValue.length]) ; 

writer.append (key, value) ; 


} 

}finally{ 

IOUtils.closeStream (writer) ; 
} 

} 


这 个 程序 与 建立 SedquenceFile 文 件 的 程序 极其 类 似 ， 这 里 束 不 详 述 
了 。 与 SedquenceFile 只 生成 一 个 文件 不 同 ， 这 个 程序 生成 的 是 一 个 文件 
夹 。 如 下 所 示 : 


-rw-r--r--**supergroup 16018*/user/root/MapFileOutput/data 
-rw-r--r--**supergroup 227*/user/root/MapFileOutput/index 


其 中 data 是 存储 的 数据 ， 即 MapFile 文 件 (经 过 排序 SequenceFile 文 
件 ) ，index 就 是 索引 了 ， 在 这 个 程序 中 ， 其 内 容 如 下 : 


© 128 


128 4200 
256 8272 
384 12344 


可 以 看 出 ， 索 引 是 按 每 128 个 键 建立 的 ， 这 个 值 可 以 通过 修改 
io.map.index.interval 的 大 小 来 修改 。key 值 后 面 是 偏 移 量 ， 用 于 记录 key 


的 位 置 。 


读 取 MapFile 文 件 的 程序 也 很 简单 ， 其 内 容 如 下 所 未: 


package cn.edn.ruc.cloudcomputing.book.chapter07; 
java.io.IOException; 
java.net.URI; 


import 
import 
import 
import 
import 
import 
import 


org.apache 
org.apache 
org.apache 
org.apache 
org.apache 


.hadoop. 
.hadoop. 
.hadoop. 
.hadoop. 
.hadoop. 


conf .Configuration; 
fs.FileSystem; 
io.I0Utils; 
io.IntWritable; 
io.MapFile; 


import org.apache.hadoop.io.Writable; 

import org.apache.hadoop.io.WritableComparable; 

import org.apache.hadoop.util.ReflectionUtils; 

public class MapFileReadFile{ 

public static void main (String[]args) throws IOException{ 
String uri=" 你 想 要 读 取 的 MapFile 文 件 位 置 "; 

Configuration conf=new Configuration () ; 

FileSystem fs=FileSystem.get (URI.create (uri) , conf) ; 
MapFile.Reader reader=null; 

try{ 

reader=new MapFile.Reader (fs, uri, conf) ; 
WritableComparable key= (WritableComparable) 
ReflectionUtils.newInstance (reader.getKeyClass () , conf) ; 
Writable value= (Writable) ReflectionUtils. 

newInstance (reader.getValueClass () , conf) ; 

while (reader.next (key, value) ) { 

System.out.printf ("%s\t%s\n", key, value) ; 


reader.get (new Intwritable (7) , value) ; 
System.out.printf ("%s\n", value) ; 
}finally{ 

IOUtils.closeStream (reader) ; 

J 

} 

} 


其 特别 之 处 是 ，MapFile 可 以 查找 单个 键 所 对 应 的 value 值 ， 见 下 
面 这 段 话 : 


执行 这 个 操作 时 ，MapFile.Reader () 需要 先 把 index 读 入 内 存 
中 ， 然 后 执行 一 个 简单 的 二 又 搜索 找到 数据 ，MapFile.Reader () EA 
找 时 ， 会 先 在 索引 文件 中 找到 小 于 我 们 想 要 找 的 key 值 的 索引 key 值 ， 
然后 再 到 data 文 件 中 向 后 查找 。 


大 型 MapFile 文 件 的 索引 通常 会 占用 很 大 的 内 存 ， 这 时 我 们 可 以 通 
过 重 设 索 引 、 增 加 索引 间隔 的 方法 降低 索引 文件 的 大 小 ， 但 古 重 设 索 


引 是 一 个 很 麻烦 的 事情 。Hadoop 提 供 了 另 一 个 非常 有 效 的 方法 ， 就 是 
读 取 有 索引 文件 时 ， 可 以 每 隔 几 个 索引 key 再 读 取 索引 key 值 ， 这 样 融 可 

以 有 效 地 降低 读 入 内 存 的 索引 文件 的 大 小 。 至 于 跳 过 key 的 个 数 是 通过 
io.map.index.skip 来 设置 的 。 


7.4.3  ArrayFile ` SetFile#!/BloomMapFile 


ArrayFile##7 H MapFile, Eta Wz AUInteger2!] value BR GT 
系 。 这 一 点 从 它 的 代码 实现 上 也 可 以 看 出 : 


public Writer (Configuration conf, FileSystem fs, 
String file, Class<?extends Writable>valClass) 
throws IOException{ 

super (conf, fs, file, LongWritable.class, valClass) ; 


public static class Reader extends MapFile.Reader{ 

private Longwritable key=new Longwritable () ; 

public Reader (FileSystem fs, String file, Configuration conf) 
throws IOException{ 

super (fs, file, conf) ; 

} 

} 


从 上 面 的 代码 中 看 出 ， 在 写 出 时 ，key 的 数据 类 型 是 
LongWritable， 而 不 是 MapFile 中 的 WritableComparator.get 
(keyClass) ， 在 读 入 的 时 候 ， 可 以 直接 定义 成 LongWriable ° 
ArrayFile 更 加 具体 的 定义 缩小 了 其 适用 范围 ， 但 是 也 降低 了 使 用 的 难 
度 ， 提 高 了 使 用 的 准确 性 。 


SetFile 同 样 继承 目 MapFile， 它 同 Java 中 的 Set 类似， 仅仅 是 一 个 
Key 的 集合 ， 而 没有 任何 value。 


public writer (Configuration conf, FileSystem fs, String 
dirName, 


Class<?extends WritableComparable>keyClass, 

SequenceFile.CompressionType compress) 

throws IOException{ 

this (conf, fs, dirName, WritableComparator.get (keyClass) , 
compress) ; 

} 

public void append (writableComparable key) throws I0Exception{ 

append (key, Nullwritable.get () ) ; 


public Reader (FileSystem fs, String dirName, WritableComparator 
comparator, 

Configuration conf) 

throws IOException{ 

super (fs, dirName, comparator, conf) ; 


} 

public boolean seek (WritableComparable key) 
throws IOException{ 

return super.seek (key) ; 


} 

public boolean next (WritableComparable key) 
throws IOException{ 

return next (key, NullWritable.get () ) ; 


} 


从 上 面 SetFile 的 实现 代码 〈 读 、 插 入 、 写 、 查 找 、 下 一 个 key) 也 
可 以 看 出 ， 它 仅仅 是 一 个 key 的 集合 ， 而 非 映 射 。 需 要 注意 的 是 回 
SetFile 中 插入 key 时 ， 必 须 保证 此 key 比 set 中 的 key 都 大 ， 即 SetFile 实 际 
上 有 是 一 个 key 的 有 序 集合 


BloomMapFile 没 有 从 MapFile 继 承 ， 但 是 它 的 两 个 核心 内 部 类 
Writer/Reader 均 继承 自 MapFile 对 应 的 两 个 内 部 类 ， 其 在 实际 使 用 中 发 
挥 的 作用 也 和 MapFile 类 似 ， 只 是 增加 了 过 滤 的 功能 。 它 使 用 动态 的 
Bloom Filter (请 参见 本 书 第 5 章 ) 来 检查 key 是 否 包 含 在 预定 的 key 集 合 


内 。BloomMapFile 的 数据 结构 有 key/value 的 映射 和 一 个 Bloom Filter, 


在 写 出 数据 时 先 根据 配置 初始 化 Bloom Fliter， 将 key 加 入 Bloom Filter 
， 然 后 写 出 key/value 数 据 ， 最 后 在 关闭 输出 流 时 写 出 Bloom Filter, 
具体 可 见 代 码 : 


public Writer (Configuration conf, FileSystem fs, String 
dirName, 

WritableComparator comparator, Class valClass) throws 
IOException{ 

super (conf, fs, dirName, comparator, valClass) ; 

this.fs=fs; 

this.dir=new Path (dirName) ; 

initBloomFilter (conf) ; 


} 


private synchronized void initBloomFilter (Configuration conf) { 


@Override 

public synchronized void append (WritableComparable key, 
Writable val) 

throws IOException{ 


bloomFilter.add (bloomKey) ; // 向 BLloomFilter 插 入 数据 

@Override 

public synchronized void close () throws IOException{ 

super.close () ; 

DataOutputStream out=fs.create (new Path (dir, 
BLOOM_FILE_NAME) , true) ; 

bloomFilter.write (out) ; // 写 出 BloomFilter 

out.flush () ; 

out.close () ; 


} 


在 读 入 数据 的 时 候 ， 同 样 先是 在 初始 化 Reader 时 初始 化 Bloom 
Filter， 并 立刻 读 入 输入 数据 中 的 Bloom Filter， 接 下 来 再 读 入 key/value 
数据 ， 有 具体 代码 如 下 : 


public Reader (FileSystem fs, String dirName, WritableComparator 
comparator, 

Configuration conf) throws IOException{ 

super (fs, dirName, comparator, conf) ; 

initBloomFilter (fs, dirName, conf) ; 

} 

private void initBloomFilter (FileSystem fs, String dirName, 

Configuration conf) { 

DataInputStream in=fs.open (new Path (dirName, 
BLOOM_FILE_NAME) ) ; 

bloomFilter=new DynamicBloomFilter () ; 

bloomFilter.readFields (in) ; 

in.close () ; 


} 


除了 提供 基本 的 读 入 和 写 出 操作 ，BloomMapFile 类 还 提供 了 
Bloom Filter 的 一 些 操作 一 probablyHasKey 和 get: 第 一 个 操作 是 检测 某 
个 key 是 否 已 存在 于 BloomMapFile 中 ， 第 二 个 操作 是 如 果 key 存 在 
BloomMapFile 中 则 返回 其 value， 具 体 代 码 实 现 如 下 : 


public boolean probablyHasKey (WritableComparable key) throws 
IOException{ 

if (bloomFilter==null) { 

return true; 


} 

buf.reset () ; 

key.write (buf) ; 

bloomKey.set (buf.getData () , 1.0) ; 

return bloomFilter.membershipTest (bloomKey) ; 

} 

@Override 

public synchronized Writable get (WritableComparable key, 
Writable val) 

throws IOException{ 

if (! probablyHasKey (key) ) { 

return null; 

} 


return super.get (key, val) ; 


} 


7.5 本章 小 结 


本 章 主要 介绍 了 Hadoop 的 MO 操作 ， 主 要 有 以 下 几 个 内 容 : 数据 完 
整 性 、 压 缩 、 序 列 化 和 基于 文件 的 数据 结构 。 数 据 完 整 性 方面 主要 介 
绍 了 Hadoop 是 如 何 通 过 校 验 和 机 制 保证 数据 完整 性 的 ， 关 于 压缩 介绍 
了 目前 Hadoop 开 发 的 儿 种 压缩 算法 及 它们 的 优 缺 点 ， 其 中 压缩 分 割 和 
输入 分 割 生 我们 编写 MapReduce 程 序 时 经 党 要 用 到 的 ， 妥 理解 清 条 
序列 化 主要 介绍 了 Hadoop 目 己 的 序列 化 机 制 ， 它 非常 简单 直接 ， 并 不 
像 Java 的 序列 化 机 制 那样 面面俱到 ， 但 这 样 可 以 使 数据 更 加 紧凑 ， 同 
时 也 可 以 加 快 序 列 化 和 反 序 列 化 的 速度 ;最 后 介绍 了 Hadoop 目 己 定义 
的 几 类 数据 结构 (也 可 以 看 成 一 类 ) ， 它 们 都 是 非常 常用 的 基于 文件 
数据 结构 ，MapReduce 程 序 中 Map 程 序 生成 的 中 间 结 果 就 古 用 这 种 基 
于 文件 的 数据 结构 表示 的 ， 它 也 是 本 章 中 非常 重要 的 一 个 内 容 。 
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本 章 小 结 


在 第 7 章 中 我 们 为 大 家 详细 介绍 了 MapReduce 在 Hadoop 中 的 实现 细 
T °- RE Hadoop MapReduce f ESRA ENI ZAM, (BERKITA 
是 从 Hadoop MapReduce 的 框架 组 成 中 意识 到 了 Hadoop MapReduce 框 以 
的 局 限 性 。 


1) JobTracker 单 点 瓶 席 。 在 之 前 的 介绍 中 可 以 看 到 ,MapReduce 
中 的 JobTracker 人 负责 作业 的 分 发 、 管 理 和 调度 ， 同 时 还 必须 和 和 集群 中 所 
有 的 节点 保持 Heartbeat 通 信 ， 了 解 机 器 的 运行 状态 和 资源 情况 。 很 明 
显 ，MapReduce 中 独一无二 的 JobTracker 负 责 了 太 多 的 任务 ， 如 果 集 群 
的 数量 和 提交 Job 的 数量 不 断 增 加 ， 那 么 JobTracker 的 任务 量 也 会 随 之 


快速 上 涨 ， 造 成 JobTracker 内 存 和 网 络 带宽 的 快速 消耗 。 这 样 的 最 终结 
果 就 是 JobTracker 成 为 集群 的 单 点 瓶 倾 ， 成 为 集群 作业 的 中 心 点 和 风险 
的 核心 。 


2) TaskTracker 端 ， 由 于 作业 分 配 信息 过 于 简单 ， 有 可 能 将 多 个 资 
源 消 耗 多 或 运行 时 间 长 的 Task 分 配 到 同一 个 Node 上 ， 这 样 会 造成 作业 
的 单 点 失败 或 等 竺 时间 过 长 。 


3) 作业 延迟 过 高 。 在 MapReduce 运 行 作业 之 前 ， 需 要 TaskTracker 
汇报 自己 的 资源 情况 和 运行 情况 ，JobTracker 根 据 获取 的 信息 分 配 作 
业 ，TaskTracker 获 取 任 务 之 后 再 开始 运行 。 这 样 的 结果 是 通信 的 延迟 
造成 作业 局 动 时 间 过 长 。 最 显著 的 影响 是 小 作业 并 不 能 及 时 完成 。 


4) 编程 框架 不 够 灵活 。 虽 然 现 在 的 MapReduce 框 架 允 许 用 户 自己 
定义 各 个 阶段 的 处 理 男 数 和 对 象 ， 但 征 MapReduce 框 架 还 是 限制 了 编 
程 的 模式 及 资源 的 分 配 。 


针对 这 些 问题 ， 下 面 介 绍 MapReduce 设 计 者 提出 的 下 一 代 Hadoop 
MapReduce 框 架 (官方 称 为 MRv2/YARN， 为 了 形成 对 比 ， 本 章 将 
YARN 称 为 MapReduce V2， 旧 的 MapReduce 框 架 简 称 为 MapReduce 


V1) 


8.1 


陷 ， 


框架 。 


个 核 


MapReduce V2 设计 需求 


Hadoop MapReduce 框 架 的 设计 者 也 意识 到 了 MapReduce V1 的 缺 
所 以 他 们 根据 用 户 最 迫切 的 需求 设计 了 新 一 代 Hadoop MapReduce 
那么 MapReduce V2 需 要 满足 用 户 哪些 迫切 需求 呢 ? 


可 靠 性 (Reliability) 
可 用 性 (Availability) 


扩展 性 (Scalability) 。 集 群 应 支持 扩展 到 10 000 个 节点 和 200 000 
ipye 


HARA (Backward Compatibility) 。 保 证 用 户 基于 MapReduce 


V1 编 写 的 程序 无 须 修 改 残 能 运行 在 MapReduce V2 上 。 


演化 。 使 用 户 能 够 控制 集群 中 软件 的 升级 。 


可 预测 延迟 (Predictable Latency) 。 提 高 小 作业 的 反应 和 处 理 速 


集群 利用 率 。 比 如 Map Task 和 Reduce Task 的 资源 共享 等 。 


MapReduce V2 的 设计 者 还 提出 了 一 些 其 次 需要 满足 的 需求 : 


支持 除 MapReduce 编 程 框架 Y 的 其 他 框架 。 这 样 能 够 扩大 
MapReduce V2 的 适用 人 群 。 


文 持 受 限 和 短期 的 服务 。 


8.2 MapReduce V2 主 要 思想 和 架构 


鉴于 MapReduce V2 的 设计 需求 和 MapReduce V1 中 凸显 的 问题 ， 

特别 是 JobTracker 单 点 瓶颈 问题 (此 问题 影响 着 Hadoop 集 群 的 可 靠 
性 、 可 用 性 和 扩展 性 ) ，MapReduce V2 的 主要 设计 思路 是 将 
JobTracker 承 担 的 两 大 块 任务 一 集群 资源 管理 和 作业 管理 进行 分 离 ， 

(其 中 分 离 出 来 的 集群 资源 管理 由 全 局 的 资源 管理 需 

(ResourceManager) 管理 ， 分 离 出 来 的 作业 管理 由 针对 每 个 作业 的 应 
用 主体 (ApplicationMaster) 管理 ) ， 然 后 TaskTracker 演 化 成 节点 管理 
at (NodeManager) 。 这 样 全 局 的 资源 管理 器 和 局 部 的 节点 管理 妖 就 
组 成 了 数据 计算 框架 ， 其 中 资源 管理 器 将 成 为 整个 集群 中 资源 最 终 分 
配 者 。 针 对 作业 的 应 用 主体 瓯 成 为 具体 的 框 殿 库 ， 负 责 两 个 任务 : 与 
资源 管理 硕 通 信 获 取 资 源 ， 与 万 点 服务 器 配合 完成 万 点 的 Task 任 务 。 


8-1 是 MapReduce V2 的 结构 图 。 


8-1 MapReduce V2 结构 图 


根据 功能 不 同 将 资源 管理 器 分 成 两 个 组 件 : 调度 器 (Scheduler) 
和 应 用 管理 器 (ApplicationManager) 。 调 度 器 根据 集群 中 容量 、 队 列 
和 资源 等 限制 ， 将 资源 分 配给 各 个 正在 运行 的 应 用 。 虽 然 被 称 为 调度 

， 但 是 它 仅 负责 唤 源 的 分 配 ， 而 不 负责 监控 各 个 应 用 的 执行 情况 和 
任务 失败 、 应 用 失败 或 硬件 失败 时 的 重 局 任务 。 调 度 右 根据 各 个 应 用 
的 资源 需求 和 集群 各 个 节点 的 资源 容器 (Resource Container， 是 集群 
点 将 自身 内 存 、CPU、 磁 盘 等 资源 封装 在 一 起 的 抽象 概念 ) 进行 调 
度 。 应 用 管理 器 人 负 贡 接收 作业 ， 协 商 获 取 第 一 个 资源 容器 用 于 执行 应 
用 的 任务 主题 并 为 重 局 失败 的 应 用 主题 分 配 容器 。 


节点 管理 器 是 每 个 结 点 的 框架 代理 。 它 负责 局 动 应 用 的 容器 ， 监 
控 容 器 的 资源 使 用 〈 包 括 CPU、 内 存 、 硬 盘 和 网 络 带宽 等 ) ， 并 把 这 
些 用 信息 汇报 给 调度 器。 应 用 对 应 的 应 用 主体 负 贡 通过 协商 从 调度 器 
处 获取 资源 容器 ， 并 跟 踩 这 些 容 右 的 状态 和 应 用 执行 的 情况 。 
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8-2 应 用 主体 组 件 事件 流 


集群 每 个 市 点 上 都 有 一 个 节点 管理 右 ， 它 主要 人 负责 : 


1) 为 应 用 启用 调度 器 已 分 配给 应 用 的 容器 

2) 保证 已 启用 的 容器 不 会 使 用 超过 分 配 的 资源 量 ; 

3) 为 task 构 建 容 器 环境 ， 包 括 二 进 制 可 执行 文件 ，jars 等 ; 
4) 为 所 在 的 节点 提供 一 个 管理 本 地 存储 资源 的 简单 服务 。 


应 用 程序 可 以 继续 使 用 本 地 存储 资源 ， 即 使 它 没有 从 资源 管理 器 
处 申请 。 比 如 : MapReduce 可 以 利用 这 个 服务 存储 Map Task 的 中 间 输 
出 结果 并 将 其 shuffle 给 Reduce Task ° 


(3) 应 用 主体 


应 用 主体 和 应 用 是 一 一 对 应 的 。 它 主要 有 以 下 职责 : 


1) 与 调度 器 协商 资源 
的 容器 中 运行 对 应 的 组 件 task， 并 


2) 与 节点 管理 器 合作 ， 在 


请 其 他 资 


监控 这 些 task 执 行 ; 
应 用 主体 会 重新 癌 调 度 器 申 ; 


) 如 果 container 出 现 故障 ， 


) 计算 应 用 程序 所 需 的 资源 量 ， 并 转化 成 调度 器 可 识别 的 协议 信 


cl 


es 
负责 重 局 它 ， 但 由 应 用 


5) 在 应 用 主体 出 现 故 障 后 ， 应 用 管理 器 会 
主体 目 己 从 之 前 保存 的 应 用 程序 执行 状态 中 恢复 应 用 程序 。 


应 用 主体 有 以 下 组 件 (各 个 组 件 的 功能 可 参考 图 8-2) 
) 事件 调度 组 件 ， 是 应 用 主体 中 各 个 组 件 的 管理 者 ， 


负责 为 其 他 


组 件 生成 事件 。 
2) 容器 分 配 组 件 ， 负 责 将 Task 的 资源 请 求 翻译 成 发 送 给 调度 器 的 
应 用 主体 的 资源 请 求 ， 并 与 资源 管理 紫 协 商 获 取 资 源 


3) 用 户 服 务 组 件 ， 将 作业 的 状态 、 计 数 器 、 执 行 


进度 等 信息 反馈 


给 Hadoop MapReduce 的 用 户 。 


A) 任务 监听 组 件 ， 负 责 接 收 Map 或 Reduce Task 发 送 的 心跳 信息 。 


5) 任务 组 件 ， 负 责 接收 Map 和 Reduce Task 形 成 的 心跳 信息 和 状态 
更 新 信息 。 


6) 容器 启动 组 件 ， 通 过 使 节点 管理 器 运行 来 负责 容器 的 启动 。 


7) 作业 历史 事件 处 理 组 件 ， 将 作业 运行 的 历史 事件 写 入 HDFS 。 


8) 作业 组 件 ， 维 护 作业 和 组 件 的 状态 。 


(4) i 


TAS ae 


ean V2 中 ， 系 统 资 源 的 组 织 形式 是 将 节点 上 的 可 用 资源 

割 ， 每 一 份 通过 封闭 组 织 成 系统 的 一 个 资源 单元 ， 即 Container (FE 
如 固定 大 小 的 内 存 分 片 、CPU 核 心 数 、 网 络 带宽 量 和 硬盘 空间 块 等 。 
在 现在 提出 的 MapReduce V2 中 ， 所 谓 资源 是 指 内 存 资源 ， 每 个 节点 由 
多 个 512MB 或 1GB 大 小 的 内 存 容器 组 成 ) 。 而 不 是 像 MapReduce V1 中 
那样 ， 将 资源 组 织 成 Map 池 和 Reduce 池 。 应 用 主体 可 以 申请 任意 多 个 
该 内 存 整 数 倍 大 小 的 容器 。 由 于 将 每 个 节点 上 的 内 存 资源 分 割 成 了 大 
小 固定 、 地 位 相同 的 容器 ， 这 些 内 存 容器 就 可 以 在 任务 执行 中 进行 互 
换 ， 从 而 提高 利用 率 ， 人 避免 了 在 MapReduce V1 中 作业 在 Reduce 池 上 的 
瓶 贷 问题 和 缺乏 资源 互 换 的 问题 。 资 源 容器 的 主要 职责 就 是 运行 、 保 
存 或 传输 应 用 主体 提交 的 作业 或 需要 存储 和 传输 的 数据 。 


8.3 MapReduce V2ìixit 4H T 


EEN T MapReduce V2 的 主体 设计 思想 和 架构 及 其 各 个 部 分 的 
主要 职责 ， 下 面 将 详细 介绍 MapReduce V2 中 的 一 些 设 
更 加 深入 地 理解 MapReduce V2 ° 


1. 资 源 协商 


应 用 主体 通过 适当 的 资源 需求 描述 来 申请 资源 容 硕 ， 可 以 包括 一 
些 指定 的 机 天 节点 。 应 用 主体 还 可 以 请 求 同 一 台 机 硕 上 的 多 个 资源 容 

。 所 有 的 资源 请 求 受 应 用 程序 容量 和 队列 容量 等 的 限制 。 所 以 为 了 

高 效 地 分 配 集群 的 货源 容 硕 ， 应 用 主体 需要 计算 应 用 的 资源 需求 ， 并 
且 把 这 些 需求 封闭 到 调度 人 硕 能 够 识别 的 协议 信息 包 中 ， 比 如 < 
priority, (host, rack, *) , memory, #containers>。 以 MapReduce 为 
例 ， 应 用 主体 分 析 input-splits 并 将 其 转化 成 以 host 为 key 的 转 置 表 发 送 
给 资源 管理 器 ， 发 送 的 信息 中 还 包括 在 其 执行 期 间 随 着 执行 的 进度 应 
用 对 资源 容 需 需求 的 变化 。 调 度 器 解析 出 应 用 主体 的 请 求 信息 之 后 ， 
会 尽量 分 配 请 求 的 货源 给 应 用 主体 。 如 采 指 定 机 釉 上 的 资源 不 可 用 ， 
还 可 以 将 同一 机 器 或 者 不 同 机 器 上 的 资源 分 配给 给 应 用 主体 。 在 有 些 
情况 下 ， 由 于 整个 集群 非常 忙碌， 应 用 主体 获取 的 资源 可 能 不 是 最 合 
适 的 ， 此 时 它 可 以 拒绝 这 些 资源 并 请 求 重 新 分 配 。 从 上 面 介绍 的 资源 
协商 的 过 程 可 以 看 出 ，MapReduce V2 中 的 资源 并 不 再 是 来 自 map 池 和 


一 > 二 


reduce 池 ， 而 十 来 目 统 一 的 资源 容 右 ， 这 样 应 用 主体 可 以 申请 所 需 数 
量 的 资源 ， 而 不 会 因为 资源 并 非 所 需 类 型 而 挂 起 。 需 要 注意 的 是 ， 调 
度 厂 不 允许 应 用 主体 无 限制 地 申请 闹 源 ， 它 会 根据 应 用 限制 、 用 户 限 
制 、 队 列 限制 和 资源 限制 等 来 控制 应 用 主体 申请 到 的 资源 规模 ， 从 而 
傈 证 集群 货源 不 补 浪 费 。 


2. 调 度 


调度 右 收 集 所 有 正在 运行 应 用 程序 的 资源 请 求 并 构建 一 个 全 局 的 
资源 分 配 计划 。 调 度 器 会 根据 应 用 程序 相关 的 约束 (如 合适 的 机 器 ) 
和 全 局 约束 (如 队列 资源 总 量 ， 队 列 限制 ， 用 户 限 制 等 ) 分 配 资源 。 
调度 如 使 用 与 容量 调度 类 似 的 概念 ， 采 用 容量 保证 作为 基本 的 策略 在 
多 个 竞争 关系 的 应 用 程序 间 分 配 资 源 。 调 度 器 的 调度 步 又 如 下 : 


1) 选择 系统 中 “最 低 服务 ”的 队列 。 这 个 队列 可 以 是 等 待 时 间 最 长 
的 队列 ， 或 者 等 竺 时 间 与 已 分 配 资源 之 比 最 大 的 队列 等 。 


2) 从 队列 中 选择 拥有 最 高 优先 级 的 作业 。 
3) 满足 被 选 出 的 作业 的 资源 请 求 。 


MapReduce V2 中 只 有 一 个 接口 用 于 应 用 主体 癌 调 度 需 请 求 资源 。 
接口 如 下 : 


Response allocate (List <ResourceRequest >ask, List <Container > 
release) 


应 用 主体 使 用 这 个 接口 中 的 ResourceRequest 列 表 请 求 特定 的 资 
源 ， 同 时 使 用 接口 中 的 Container 列 表 参 数 告诉 调度 器 自己 释放 的 资源 


Bo 


m 


调度 器 接收 到 应 用 主体 的 请 求 之 后 会 根据 目 己 的 全 局 计划 及 各 种 
限制 返回 对 请 求 的 回复 。 回 复 中 主要 包括 三 类 信息 : 最 新 分 配 的 资源 
容器 列表 、 在 应 用 主体 和 资源 管理 器 上 次 交互 之 后 完成 任务 的 应 用 指 
定 资 源 容器 的 状态 、 当 前 集群 中 应 用 程序 可 用 的 资源 数量 。 应 用 主体 
可 以 收集 完成 容 右 的 信息 并 对 失败 任务 做 出 反应 。 可 用 资源 量 可 以 为 
应 用 主体 接 下 来 的 资源 申请 提供 参考 ， 比 如 应 用 主体 可 以 使 用 这 些 信 
县 来 合理 分 配 Map 和 Reduce 各 目 请 求 的 资源 数量 ， 进 而 防止 死 锁 (最 
明显 的 情况 是 Reduce 请 求 占 用 所 有 的 剩余 可 用 资源 ) 。 


3. 痪 源 监 控 


调度 器 定期 从 节点 管理 器 处 收集 已 分 配 资源 的 使 用 信息 。 同 时 ， 
调度 器 还 会 将 已 完成 任务 容器 的 状态 设置 为 可 用 ， 以 便 有 需求 的 应 用 
申请 使 用 。 


4. 应 用 提交 


以 下 是 应 用 提交 的 步骤 。 


具体 的 步骤 是 在 用 户 提交 作业 之 


1) 用 户 提交 作业 到 应 用 管理 器 
后 ，MapReduce 框 染 为 用 户 分 配 一 个 新 的 应 用 ID， 并 将 应 用 的 定义 打 


包 上 传 到 HDFS 上 用 户 的 应 用 缓存 目录 中 。 最 后 提交 此 应 用 给 应 用 管 


TEZY ° 


第 一 个 资源 


2) 应 用 管理 器 接受 应 用 提交 。 
3) 应 用 管理 器 同调 度 器 协商 获取 运行 应 用 主体 所 需 的 


容器 ， 并 执行 应 用 主体 。 
4) 应 用 管理 恬 将 启动 的 应 用 主体 细 市 信息 发 还 给 用 户 ， 以 便 其 监 


督 应 用 的 进度 。 


5. 应 用 管理 器 组 件 
应 用 管理 器 负责 启动 系统 中 所 有 应 用 的 应 用 主体 并 管理 其 生命 周 


期 。 在 局 动 应 用 主体 之 后 ， 应 用 管理 器 通过 应 用 主体 定期 发 送 的 “ 心 
跳 ” 来 监督 应 用 主体 ， 保 证 其 可 用 性 ， 如 采 应 用 主体 失败 ， 束 需要 将 其 


重 局 。 
为 了 完成 上 述 任务 ， 应 用 管理 器 包含 以 下 组 件 : 


8-3 MapReduce V2 作 业 执 行 流程 
1) 调度 协商 组 件 ， 负 责 与 调度 器 协商 应 用 主体 所 需 的 资源 容器 。 


2) 应 用 主体 容器 管理 组 件 ， 负 责 通过 与 节点 管理 器 通信 来 局 动 或 
停止 应 用 主体 容器 。 


3) 应 用 主体 监控 组 件 ， 负 责 监控 应 用 主体 的 状态 ， 保 证 其 可 用 ， 
并 且 在 必要 的 情况 下 重 局 应 用 主体 。 


6.MapReduce V2 作业 执行 流程 


由 于 主要 组 件 发 生 更 改 ，MapReduce V2 中 的 作业 执行 流程 也 有 所 
变化 。 作 业 的 执行 流程 图 如 图 8-3 所 示 《〈 仅 说 明 主 要 流程 ， 一 些 反 馈 流 
程 和 心跳 通信 并 未 标注 ) 。 


ORD: MapReduce 框 架 接 收 用 户 提交 的 作业 ， 并 为 其 分 配 一 个 
新 的 应 用 ID， 并 将 应 用 的 定义 打包 上 传 到 HDFS 上 用 户 的 应 用 缓存 目 


杂 中 ， 然 后 提交 此 应 用 给 应 用 管理 右 。 


FROD: 应 用 管理 器 同调 度 器 协商 获取 运行 应 用 主体 所 需 的 第 一 


FRO: 应 用 管理 器 在 获取 的 资源 容器 上 执行 应 用 主体 。 


BORA: 应 用 主体 计算 应 用 所 需 资源 ， 并 发 送 资 源 请 求 到 调度 


ORS): 调度 器 根据 自身 统计 的 可 用 资源 状态 和 应 用 主体 的 资源 
请 求 ， 分 配合 适 的 资源 容器 给 应 用 主体 。 


~ 


FRO: 应 用 主体 与 所 分 配 容器 的 节点 管理 器 通信 ， 提 交 作 业 情 
况 和 资源 使 用 说 明 。 


ND 


TRO: 节点 管理 器 启用 容器 并 运行 任务 。 


步骤 (8)， 应 用 主体 监控 容器 上 任务 的 执行 情况 。 
步骤 9): 应 用 主体 反馈 作业 的 执行 状态 信息 和 完成 状态 。 
7.MapReduce V2 系 统 可 用 性 保证 


系统 可 用 性 主要 指 MapReduce V2 中 各 个 组 件 的 可 用 性 ， 即 保证 能 
使 其 在 失败 之 后 迅速 恢复 并 提供 服务 ， 比 如 保证 资源 管理 右 、 应 用 主 


体 等 的 可 用 性 。 首 先 介绍 MapReduce V2 如 何 保证 MapReduce 应 用 和 应 
用 主体 的 可 用 性 。 在 之 前 已 有 介绍 ， 资 源 管 理 器 中 的 应 用 管理 种 负责 
监控 MapReduce 应 用 主体 的 执行 情况 。 在 应 用 主体 发 生 失 败 之 后 ， 应 
用 管理 器 仅 重启 应 用 主体 ， 再 由 应 用 主体 恢复 某 个 特定 的 MapReduce 
作业 。 应 用 主体 在 恢复 MapReduce 作 业 时 ， 有 三 种 方式 可 供 选 择 : 完 
成 重 局 MapReduce 作 业 ; 重启 未 完成 鸭 Map 和 Reduce 任 务 ; 回应 用 主 
ee ee 然后 恢复 作业 执行 。 第 
一 种 方式 的 代价 比较 大 ， 会 重复 工作 ; 第 二 种 方式 效果 较 好 ， 但 仍 有 
可 能 重复 Reduce 任 务 的 部 分 工作 ; 第 三 种 方式 最 为 理想 ， 从 失败 点 直 
接 重 新 开始 ， 没 有 任何 重复 工作 ， 但 这 种 方式 对 系统 的 要 求 过 高 。 在 
MapReduce V2 中 选择 了 第 二 种 恢复 方式 ， 具 体 实现 方式 是 : 应 用 管理 
器 在 监督 MapReduce 任 务 执行 的 同时 记录 日 志 ， 标 明 已 完成 的 Map 和 
Reduce 任 务 ; 在 恢复 作业 时 ， 分 析 日 志 后 重启 未 完成 的 任务 即 可 。 


接 下 来 介绍 MapReduce V2 如 何 保证 资源 管理 万 的 可 用 性 。 资 源 管 
理 器 在 运行 服务 过 程 中 ， 使 用 ZooKeeper 保 存 资 源 管理 的 状态 ， 包 括 应 
管理 右 进 程 情况 、 队 列 定义 、 资 源 分 配 情 况 、 市 点 管理 右 情 况 等 信 
思 。 在 资源 管理 璐 失败 之 后 ， 由 资源 管理 右 根 据 目 己 的 状态 进行 目 我 
KE 。 
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8.4 MapReduce V2 优势 


1) 分 散 了 JobTracker 的 任务 。 资 源 管理 任务 由 资源 管理 器 负责 ， 
作业 启动 、 运 行 和 监测 任务 由 分 布 在 集群 节点 上 的 应 用 主体 负责 。 这 
样 大 大 减缓 了 MapReduce V1 中 JobTracker 单 点 瓶颈 和 单 点 风险 的 问 
题 ， 大 大 提高 了 集群 的 扩展 性 和 可 用 性 。 


2) 在 MapReduce V2 中 应 用 主体 (ApplicationMaster) 是 一 个 用 户 
可 目 定 制 的 部 分 ， 因 此 用 户 可 以 针对 编程 模型 编写 自己 的 应 用 主体 程 
序 。 这 样 大 大 扩展 了 MapReduce V2 的 适用 范围 。 


3) 在 资源 管理 器 上 使 用 ZooKeeper 实 现 故障 转移 。 当 资源 管理 器 
故障 时 ， 备 用 资源 管理 名 将 根据 保存 在 ZooKeeper 中 的 集群 状态 快速 局 
动 。 MapReduce V2 文 持 应 用 程序 指定 检查 点 。 这 就 能 保证 应 用 主体 在 
失败 后 能 迅速 地 根据 HDFS 上 保存 的 状态 重启 。 这 两 个 措施 大 大 提高 
了 MapReduce V2 的 可 用 性 。 


4) 集群 资源 统一 组 织 成 资源 容器 ， 而 不 像 在 MapReduce V1 中 
Map 池 和 Reduce 池 有 所 差别 。 这 样 只 要 有 任务 请 求 资 源 ， 调 度 絮 就 会 
将 集群 中 的 可 用 资源 分 配给 请 求 任 务 ， 而 无 天资 源 类 型 。 这 大 大 提高 
了 集群 资源 的 利用 率 。 


8.5 ”本章 小 结 


本 章 结合 MapReduce V1 的 缺陷 为 大 家 介绍 了 MapReduce V2， 包 
括 设计 和 需求、 主要 设计 思想 、 设 计 细 节 和 相对 于 MapReduce V1 的 优 
势 。 大 家 应 深入 理解 其 思想 和 染 构 ， 以 适应 MapReduce 发 展 的 新 形 
tA o 


第 9 革 HDFS 评 解 


Hadoop 的 文件 系统 
HDFS 简 介 
HDFS 体 系 结构 
HDFS 的 基本 操作 
HDFS 常 用 Java API 详 解 
HDFS 中 的 读 写 数据 流 
HDFS 命 令 详解 
WebHDFS 

本 章 小 结 


HDFS (Hadoop Distributed File System) 是 Hadoop 项 目的 核心 子 
项 目 ， 是 Hadoop 主 要 应 用 的 一 个 分 布 式 文 件 系统 ， 本 章 将 对 它 进 行 详 
细 介 绍 。 实 际 上 ，Hadoop 中 有 一 个 综合 性 的 文件 系统 抽象 ， 它 提供 了 


文件 系统 实现 的 各 类 接口 ，HDFS 只 是 这 个 抽象 文件 系统 的 一 个 实 
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在 本 章 中 ， 我 们 首先 会 对 Hadoop 的 文件 系统 给 予 一 个 总 体 的 介 
绍 ， 然 后 对 HDFS 的 相关 内 容 给 予 重点 地 讲解 ， 包 括 HDFS 的 特点 、 基 
本 操作 、 常 用 API 及 读 / 写 数据 流 等 。 


9.1 Hadoop 的 文件 系统 


Hadoop 整 合 了 从 多 文件 系统 ， 它 自 先 提供 了 一 个 高 层 的 文件 系统 
抽象 org.apache.hadoop.fs.FileSystem ， 这 个 抽象 类 展示 了 一 个 分 布 式 文 
件 系统 ， 并 有 几 个 具体 实现 ， 如 表 9-1 所 示 。 


表 9-1 Hadoop 的 文件 系统 
文件 系统 URI Fy 


4 FFA A mW Me PY A A oe TE RR. AT HE 
Local fs.LocalFileSystem Ke PAY Ae Hb ot te ETE fs.RawLocalFileSystem 中 
实现 


Java 实现 (org.apache.hadoop ) 定 "4 


HDFS hdfs hdfs.DistributedFileSystem Hadoop 的 分 布 式 文件 系统 

n — 支持 通过 HTTP 方式 以 只 读 的 方式 访问 HDPFS， 
HFTP hdfs.HfipFileSystem distcp 经 常用 在 不 同 的 HDES 集群 间 复 制 数据 
HSFTP hdfs. HsftpFileSystem 支持 通过 HTTPS 方式 以 只 读 的 方式 访问 HDFS 


HAR 


£ 
HEHREN aR 
har fs.HarFileSystem i. Hadoop 归档 文件 主要 用 来 减少 NameNode 的 
内 存 使 用 

Cloudstroe【“ 其 前 身 是 Kosmes 文件 系统 ) 文件 
KFS kfs fs.kfs.KosmosFileSystem 系统 是 类 似 于 HPDFS 和 Goosgle 的 GES 的 文件 系 
统 ， 使 用 C++ 编写 

s3 


FTP fs.ftp.FtpFileSystem 由 FTP 服务 器 支持 的 文件 系统 
S3 (本 地 ) fs.s3native. NativeSSFileSystem 基于 Amazon S3 的 文件 系统 


, A W F Amazon S3 xr ft RHE. LAL ARTO AT GE 
S3(( 基于 块 ) pos | fs.s3.NativeS3FileSystem HET S3 的 SGB 文件 大 小 的 限制 


Hadoop 提 供 了 许多 文件 系统 的 接口 ， 用 户 可 使 用 URI 方 案 选 取 合 
适 的 文件 系统 来 实现 交互 。 比 如 ， 可 以 使 用 9.4.1 节 介绍 的 文件 系统 命 
令 行 接口 进行 Hadoop 文 件 系统 的 操作 。 如 果 想 列 出 本 地 文件 系统 的 目 
杂 ， 那 么 执行 以 下 shell 命 令 即 可 : 


hadoop fs-ls file: /// 


(1) 接口 


Hadoop 是 使 用 Java 编 写 的 ， 而 Hadoop 中 不 同文 件 系 统 之 间 的 交互 
是 由 Java API 进 行 调 市 的 。 事 实 上 ， 前 面 使 用 的 文件 系统 的 shell 就 是 一 
个 Java 应 用 ， 它 使 用 Java 文 件 系 统 类 来 提供 文件 系统 操作 。 即 使 其 他 
文件 系统 比如 FTP、S3 都 有 自己 的 访问 工具 ， 这 些 接口 在 HDFS 中 还 是 
被 广泛 使 用 ， 主 要 用 来 进行 Hadoop 文 件 系统 之 间 的 协作 。 


(2) Thrift 


上 面 提 到 可 以 通过 Java API 与 Hadoop 的 文件 系统 进行 交互 ， 而 对 
于 其 他 非 Java 应 用 访问 Hadoop 文 件 系 统 则 比较 麻烦 。Thriftfs 分 类 单元 
中 的 Thrift API 可 通过 将 Hadoop 文 件 系统 展示 为 一 个 Apache Thrift 服 务 
来 填补 这 个 不 足 ， 让 任何 有 Thrift 绑 定 的 语言 都 能 轻松 地 与 Hadoop 文 件 
系统 进行 交互 。Thrift 是 由 Facebook 公 司 开发 的 一 种 可 伸缩 的 跨 语言 服 
务 的 发 展 软件 框架 。Thrift 解 决 了 各 系统 间 大 数据 量 的 传输 通信 ， 以 及 
系统 之 间 语 言 环境 不 同 而 需要 跨 平 台 的 问题 。 在 多 种 不 同 的 语言 之 间 
通信 有 时，Thrift 可 以 作为 二 进 制 的 高 性 能 的 通信 中 间 件 ， 它 支持 数据 

(对 象 ) 序列 化 和 多 种 类 型 的 RPC 服 务 。 


下 面 来 看 如 何 使 用 Thrift API。 要 使 用 Thrift API， 首 先 要 运行 提供 
Thrift 服 务 的 Java 服 务 器 ， 并 以 代理 的 方式 访问 Hadoop 文 件 系统 。 
Thrift API 包 含 很 多 其 他 语言 生成 的 stub， 包 括 C++、Perl、PHP、 


Python 等 。Thrift 文 持 不 同 的 版 本 ， 因 此 可 以 从 同一 个 客户 代码 中 访问 
不 同 版 本 的 Hadoop 文 件 系 统 ， 但 要 运行 针对 不 同 版 本 的 代理 。 


关于 安装 与 使 用 教程 ， 可 以 参考 src/contrib/thriftfs 目 录 中 关于 
Hadoop 分 布 的 参考 文档 。 


(3) CEF JE 


Hadoop 提 供 了 映射 Java 文 件 系 统 接口 的 C 语 言 库 一 libhdfs ° libhdfs 
可 以 编写 为 一 个 访问 HDFS 的 C 语 言 库 ， 实 际 上 ， 它 可 以 访问 任意 的 
Hadoop 文 件 系统 ， 也 可 以 使 用 JNI (Java Native Interface) 来 调用 Java 
文件 系统 的 客户 端 。 


这 里 的 C 语 言 的 接口 和 Java 的 使 用 非常 相似 ， 只 是 稍 请 后 于 Java， 
目前 还 不 文 持 一 些 新 特性 。 相 关 资 料 可 参见 libhdfs/docs/api 目 录 中 关于 
Hadoop 分 布 的 C API 文 档 。 


(4) FUSE 


FUSE (Filesystem in Userspace) 允许 文件 系统 整合 为 一 个 Unix 文 
件 系统 并 在 用 户 空间 中 执行 。 通 过 使 用 Hadoop Fuse-DFS 的 contirb 模 块 
文 持 任 意 的 Hadoop 文 件 系 统 作为 一 个 标准 文件 系统 进行 挂 载 ， 便 可 以 
使 用 UNIX 的 工具 (ils > cat) 和 文件 系统 进行 交互 ， 还 可 以 通过 任意 
一 种 编程 语言 使 用 POSIX 库 来 访问 文件 系统 。 


Fuse-DFS 是 用 C 语 言 实现 的 ， 可 使 用 libhdfs 作 为 与 HDFS 的 接口 ， 
关于 如 何 编 译 和 运行 Fuse-DFS， 可 以 参见 src/contrib../fuse-dfs 中 的 相关 
文档 。 


(5) WebDAV 


WebDAV 是 一 系列 支持 编辑 和 更 新 文件 的 HTTP 的 扩展 。 在 大 部 分 
操作 系统 中 ，WebDAV 共 享 都 可 以 作为 文件 系统 进行 挂 载 ， 因 此 ， 通 
过 WebDAV 向 外 提供 HDFS 或 其 他 Hadoop 文 件 系 统 ， 可 以 将 HDFS 作 为 
一 个 标准 的 文件 系统 进行 访问 。 


(6) 其 他 HDFS 接 口 
HDFS 接 口 还 提供 了 以 下 其 他 两 种 特定 的 接口 。 


HTTP。HDFS 定 义 了 一 个 只 读 接 口 ， 用 来 在 HTTP 上 检索 目录 列 
表 和 数据 。NameNode 的 嵌入 式 Web 服 务 器 运行 在 50070 端 口上 ， 以 
XML 格式 提供 服务 ， 文 件数 据 由 DataNode 通 过 它们 的 Web 服 务 器 
50075 端 口 向 NameNode 提 供 。 这 个 协议 并 不 拘泥 于 某 个 HDFS 版 本 ， 
所 以 用 户 可 以 自己 编写 使 用 HTTP 从 运行 不 同 版 本 的 Hadoop 的 HDFS 中 
读 取 数据 。HftpFileSystem 束 是 其 中 一 种 实现 ， 它 是 一 个 通过 HTTP 和 


HDFS 交 流 的 Hadoop 文 件 系 统 ， 是 HTTPS 的 变 体 。 


FTP。Hadoop 接 口中 还 有 一 个 HDFS 的 FTP 接 口 ， 它 允许 使 用 FTP 
协议 和 HDFS 交 互 ， 即 使 用 FTP 客 户 端 和 HDFS 进 行 交 互 。 


9.2 HDFS 简 介 


HDFS 是 基于 流 数 据 模式 访问 和 处 理 超 大 文件 的 需求 而 开发 的 ， 
它 可 以 运行 于 廉价 的 商用 服务 器 上 。 忌 的 来 说 ， 可 以 将 HDFS 的 主要 
特点 概括 为 以 下 儿 点 。 


(1) 处 理 超 大 文件 


这 里 的 超大 文件 通常 是 指数 百 MB、 甚 至 数 百 TB 大 小 的 文件 。 目 
前 在 实际 应 用 中 ，HDFS 已 经 能 用 来 存储 管理 PB (PeteBytes) 级 的 数 
据 了 。 在 雅虎 ，Hadoop 集 群 也 已 经 扩展 到 了 4 000 个 节点 。 


(2) 流 式 地 访问 数据 


HDFS 的 设计 建立 在 更 多 地 啊 应 “一 次 写 入 、 多 次 读 取 ” 任 务 的 基础 
之 上 。 这 意味 着 一 个 数据 集 一 旦 由 数据 源 生 成 ， 束 会 家 复制 分 发 到 不 
同 的 存储 节点 中 ， 然 后 啊 应 各 种 各 样 的 数据 分 析 任 务 请 求 。 在 大 多 数 
情况 下 ， 分 析 任 务 都 会 涉及 数据 集中 的 大 部 分 数据 ， 也 束 是 说 ， 对 
HDFS 来 说 ， 请 求 读 取 整 个 数据 集 要 比 读 取 一 条 记录 更 加 高 效 。 


(3) 运行 于 廉价 的 商用 机 器 集群 上 


Hadoop 设 计 对 硬件 需求 比较 低 ， 只 需 运 行 在 廉价 的 商用 硬件 集群 
上 ， 而 无 需 昂 贵 的 高 可 用 性 机 器 。 廉 价 的 两 用 机 也 就 意味 着 大 型 集群 


中 出 现 市 点 疏 障 情况 的 概率 非常 蜗 。 这 束 要 求 在 设计 HDFS 时 要 充分 
考虑 数据 的 可 靠 性 、 安 全 性 及 高 可 用 性 。 


正 征 由 于 以 上 的 种 种 考虑 ， 我 们 会 发 现 ， 现 在 的 HDFS 在 处 理 一 
些 特定 问题 时 不 但 没有 优势 ， 而 且 还 有 一 定 的 局 限 性 ， 主 要 表现 在 以 
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(1) 不 适合 低 延 迟 数据 访问 


如 果 要 处 理 一 些 用 户 要 求 时 间 比 较 短 的 低 延 迟 应 用 请 求 ， 则 
HDFS 不 适合 。HDFS 是 为 了 处 理 大 型 数据 集 分 析 任 务 ， 主 要 是 为 达到 
高 的 数据 吞吐 量 而 设计 的 ， 这 束 要 求 可 能 以 高 延迟 作为 代价 。 目 前 有 
一 些 补充 方案 ， 比 如 使 用 HBase， 通 过 上 层 数 据 管理 项 目 来 尽 可 能 地 
弥补 这 个 不 足 。 


(2) 无 法 高 效 存储 大 量 小 文件 


在 Hadoop 中 需要 用 NameNode (名 称 节 点 ) 来 管理 文件 系统 的 元 
数据 ， 以 响应 客户 端 请 求 返 回 文 件 位 置 等 ， 因 此 文件 数量 大 小 的 限制 
要 由 NameNode 来 决定 。 例 如 ， 每 个 文件 、 索 引 目 录 及 块 大 约 占 100 字 
玫 ， 如 有 果 有 100 万 个 文件 ， 每 个 文件 占 一 个 块 ， 那 么 至 少 要 消耗 
200MB 内 存 ， 这 似乎 还 可 以 接受 。 但 如 果 有 更 多 文件 ， 那 么 
NameNode 的 工作 压力 更 大 ， 检 索 处 理 元 数据 所 需 的 时 间 驳 不 可 接受 
Te 


(3) 不 支持 多 用 户 写 入 及 任意 修改 文件 


在 HDFS 的 一 个 文件 中 只 有 一 个 写 入 者 ， 而 且 写 操作 只 能 在 文件 
末尾 完成 ， 即 只 能 执行 奶 加 操作 。 目 前 HDFS 还 不 文 持 多 个 用 户 对 同 
一 文件 的 写 操作 以 及 在 文件 任意 位 置 进行 修改 。 


当然 ， 以 上 几 点 部 是 当前 的 问题 ， 相 信 随 着 人 研究 者 的 努力 ， 
HDFS 会 更 加 成 熟 ， 可 以 满足 更 多 的 应 用 需要 。 以 下 链接 是 Hadoop 的 
一 些 热 点 研究 方向 ， 读 者 可 以 目 行 参考 : 


http://wiki. apache.org/hadoop/ProjectSuggestions. 


9.3 HDFS 体 系 结构 


想 要 了 解 HDFS 的 体系 结构 ， 首 先 从 HDFS 的 相关 概念 入 手 ， 下 面 
将 介绍 HDFS 中 的 几 个 重要 概念 。 


9.3.1 HDFS 的 相关 概念 


1. 块 (Block) 


我 们 知道 ， 在 操作 系统 中 都 有 一 个 文件 块 的 概念 ， 文 件 以 块 的 形 
式 存 储 在 磁 强 中 ， 此 处 块 的 大 小 代表 系统 读 / 写 可 操作 的 最 小 文件 大 
小 。 也 束 是 说 ， 文 件 系统 每 次 只 能 操作 磁盘 块 大 小 的 整数 倍数 据 。 通 
前 来 说 ， 一 个 文件 系统 块 大 小 为 几 千 字 世 ， 而 磁盘 块 大 小 为 512 字 节 。 
文件 的 操作 都 由 系统 完成 ， 这 些 对 用 户 来 说 都 是 透明 的 。 


这 里 ， 我 们 所 要 介绍 的 HDFS 中 的 块 是 一 个 抽象 的 概念 ， 它 比 上 
面 操作 系统 中 所 说 的 块 要 大 得 多 。 在 配置 Hadoop 系 统 时 会 看 到 ， 它 的 
默认 块 大 小 为 64MB。 和 单机 上 的 文件 系统 相同 ，HDFS 分 布 式 文件 系 
统 中 的 文件 也 被 分 成 块 进行 存储 ， 它 是 文件 存储 处 理 的 逻辑 单元 (如 
果 没 有 特别 指出 ， 后 文中 所 描述 的 块 都 是 指 HDFS 中 的 块 ) 。 


HDFS 作 为 一 个 分 布 式 文件 系统 ， 设 计 是 用 来 处 理 大 文件 的 ， 使 
用 抽象 的 块 会 珊 来 很 多 好 处 。 一 个 好 处 是 可 以 存储 任意 大 的 文件 而 又 
不 会 受到 网 络 中 任 一 单个 斑点 磁 副 大 小 的 限制 。 可 以 想象 一 下 ， 单 个 
世 避 存 储 100TB 的 数据 是 不 可 能 的 ， 但 是 由 于 逻辑 块 的 设计 ，HDFS 可 
以 将 这 个 超大 的 文件 分 成 众多 块 ， 分 别 存储 在 集群 的 各 个 机 右上 “。 忆 
外 一 个 好 处 是 使 用 抽象 块 作为 操作 的 单元 可 以 简化 存储 子 系统 。 这 里 
之 所 以 所 到 简化 ， 征 因为 这 和 是 所 有 系统 的 追求 ， 而 对 故障 出 现 频繁 、 
种 类 繁多 的 分 布 式 系 统 来 说 ， 人 简化 束 显 得 尤为 重要 。 在 HDFS 中 块 的 
大 小 固定 ， 这 样 它 束 商 化 了 存储 系统 的 管理 ， 特 别 征 元 数据 信息 可 以 
和 文件 块 内 容 分 开 存储 。 不 仅 如 此 ， 块 更 有 利于 分 布 式 文件 系统 中 复 
制 容 错 的 实现 。 在 HDFS 中 ， 为 了 处 理 和 点 故障 ， 默 认 将 文件 块 副本 
数 设 定 为 3 份 ， 分 别 存储 在 集群 的 不 同市 点 上 。 当 一 个 块 损坏 时 ， 系 统 
会 通过 NameNode 获 取 元 数据 信息 ， 在 男 外 的 机 器 上 读 取 一 个 副本 并 
进行 存储 ， 这 个 过 程 对 用 户 来 说 都 是 透明 的 。 当 然 ， 这 里 的 文件 块 副 
本 元 余 量 可 以 通过 文件 进行 配置 ， 比 如 在 有 些 应 用 中 ， 可 能 会 为 操作 
频率 较 高 的 文件 块 设置 较 高 的 副本 数量 以 提高 集群 的 吞吐 量 。 


在 HDFS 中 ， 可 以 通过 终端 命令 直接 获得 文件 和 块 信息 ， 比 如 以 
下 命令 可 以 列 出 文件 系统 中 组 成 各 个 文件 的 块 (有 关 HDFS 的 命令 ， 
将 会 在 9.4 廊 中 详细 讲解 ): 


hadoop fsck/-files-blocks 


2.NameNode 和 DataNode 


HDFS 体 系 结构 中 有 两 类 广 点 ， 一 类 是 NameNode， 男 一 类 是 
DataNode。 这 两 类 节点 分 别 承 担 Master 和 Worker 的 任务 。NameNode 就 
是 Master 管 理 集群 中 的 执行 调度 ，DataNode 就 是 worker 具 体 任 务 的 执 
ITTA ° NameNode 管 理 文件 系统 的 命名 空间 ， 维 护 整 个 文件 系统 的 
文件 目录 树 及 这 些 文件 的 索引 目录 。 这 些 信息 以 两 种 形式 存储 在 本 地 
文件 系统 中 ， 一 种 是 命名 空间 镜像 (Namespace image) ， 一 种 是 编辑 
日 志 (Editlog) 。 从 NameNode 中 你 可 以 获得 每 个 文件 的 每 个 块 所 在 
的 DataNode。 需 要 注意 的 是 ， 这 些 信息 不 是 永久 保存 的 ，NameNode 
会 在 每 次 系统 局 动 时 动态 地 重建 这 些 信息 。 当 运行 任务 时 ， 客 户 端 通 
过 NameNode 获 取 元 数据 信息 ， 和 DataNode 进 行 交 互 以 访问 整个 文件 
系统 。 系 统 会 提供 一 个 类 似 于 POSIX 的 文件 接口 ， 这 样 用 户 在 编程 时 
无 须 考 虚 NameNode 和 DataNode 的 具体 功能 。 


DataNode 是 文件 系统 Worker 中 的 节点 ， 用 来 执行 具体 的 任务 : F 


储 文件 块 ， 被 客户 端 和 NameNode 调 用 。 同 时 ， 它 会 通过 心跳 
(Heartbeat) 定时 间 NameNode 发 送 所 存储 的 文件 块 信息 。 


9.3.2 ”HDFS 的 体系 结构 


如 图 9-1 所 示 ，HDFS 采 用 MastervSlave 架 构 对 文件 系统 进行 管理 。 

一 个 HDFS 集 群 是 由 一 个 NameNode 和 一 定数 目的 DataNode 组 成 的 。 
NameNode 是 一 个 中 心服 务 器 ， 人 负责 管理 文件 系统 的 名 字 空 间 

(Namespace) 以 及 客户 端 对 文件 的 访问 。 和 集群 中 的 DataNode 一 般 是 
一 个 节点 运行 一 个 DataNode 进 程 ， 负 责 管 理 它 所 在 节点 上 的 存储 。 
HDFS 展 示 了 文件 系统 的 名 字 空 间 ， 用 户 能 够 以 文件 的 形式 在 上 面 存 
储 数据 。 从 内 部 看 ， 一 个 文件 其 实 被 分 成 一 个 或 多 个 数据 块 ， 这 些 块 
存储 在 一 组 DataNode 上 “。NameNode 执 行文 件 系统 的 名 字 空间 操作 ， 
比如 打开 、 关 闭 、 重 命名 文件 或 目录 。 它 也 负责 确定 数据 块 到 具体 
DataNode 节 点 的 映射 。DataNode 负 责 处 理 文件 系统 客户 端的 读 / 写 请 
求 。 在 NameNode 的 统一 调度 下 进行 数据 块 的 创建 、 删 除 和 复制 。 


1. 副 本 存放 与 读 取 策略 


副本 的 存放 征 HDFS 可 靠 性 和 性 能 的 关键 ， 优 化 的 副本 存放 策略 
也 正定 HDFS 区 分 于 其 他 大 部 分 分 布 式 文件 系统 的 重要 特性 。HDFS 采 
用 一 种 称 为 机 染 感 知 (rack-aware) 的 策略 来 改进 数据 的 可 靠 性 、 可 用 
性 和 网 络 带 宽 的 利用 率 。 大 型 HDFS 实 例 一 般 运 行 在 跨越 多 个 机 架 的 
计算 机 组 成 的 集群 上 ， 不 同 机 架 上 的 两 台 机 器 之 间 的 通信 和 需要 经 过 交 


换 机 ， 这 样 会 增加 数据 传输 的 成 本 。 在 大 多 数 情况 下 ， 同 一 个 机 染 内 
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9-1 HDFS 的 体系 结构 


一 方面 ， 通 过 一 个 机 架 感知 的 过 程 ，NameNode 可 以 确定 每 个 
DataNode 所 属 的 机 架 ID。 目 前 HDFS 采 用 的 策略 就 是 将 副本 存放 在 不 
同 的 机 染 上 上， 这样 可 以 有 效 防止 整个 机 架 失 效 时 数据 的 丢失 ， 并 且 人 允 
许 读 数据 的 时 候 充分 利用 多 个 机 架 的 市 宽 。 这 种 策略 设置 可 以 将 副本 
均匀 地 分 布 在 集群 中 ， 有 利于 在 组 件 失 效 情况 下 的 负载 均衡 。 但 是 ， 
因为 这 种 策略 的 一 个 写 操作 需要 传输 数据 块 到 多 个 机 架 ， 这 增加 了 和 写 
操作 的 成 本 。 


举例 来 看 ， 在 大 多 数 情况 下 ， 副 本 系数 是 3，HDFS 的 存放 策略 是 
将 一 个 副本 存放 在 本 地 机 染 的 节点 上 ， 男 一 个 副本 放 在 同一 机 架 的 男 
一 个 节 护 上 ， 第 三 个 副本 放 在 不 同 机 架 的 厄 扎 上 。 这 种 策略 减少 了 机 


以 间 的 数据 传输 ， 提 高 了 写 操 作 的 效率 。 机 以 的 错误 远 比 节点 的 错误 
少 ， 所 以 这 个 策略 不 会 影响 数据 的 可 靠 性 和 可 用 性 。 同 时 ， 因 为 数据 
块 只 放 在 两 个 不 同 的 机 架 上 ， 所 以 此 策略 减少 了 读 取 数 据 时 需要 的 网 
络 传输 总 市 宽 。 这 一 策略 在 不 损害 数据 可 车 性 和 读 取 性 能 的 情况 下 改 
进 了 写 的 性 能 。 


ce 


CC 


男 一 方面 ， 在 读 取 数据 时 ， 为 了 减少 整体 的 市 宽 消 耗 和 降低 整体 
的 带宽 延 时 ，HDFS 会 尽量 让 读 取 程序 读 取 离 客户 端 最 近 的 副本 。 如 
果 在 读 取 程序 的 同一 个 机 染 上 有 一 个 副本 ， 那 么 束 读 取 该 副本 ， 如 琳 
一 个 HDFS 集 群 跨越 多 个 数据 中 心 ， 那 么 客户 端 也 将 首先 读 取 本 地 数 
据 中 心 的 副本 。 


2. 安 全 模式 


NameNode 局 动 后 会 进入 一 个 称 为 安全 模式 的 特殊 状态 。 处 于 安 
全 模式 的 NameNode 不 会 进行 数据 块 的 复制 。NameNode 从 所 有 的 
DataNode 接 收 心跳 信号 和 块 状态 报告 。 块 状态 报告 包括 了 某 个 
DataNode 所 有 的 数据 块 列表 。 每 个 数据 块 都 有 一 个 指定 的 最 小 副本 
数 。 当 NameNode 检 测 确认 某 个 数据 块 的 副本 数目 达到 最 小 值 时 ， 该 
数据 块 就 会 被 认为 是 副本 安全 的 ; 在 一 定 百分比 《这 个 参数 可 配置 ) 
的 数据 块 被 NameNode 检 测 确认 是 安全 之 后 (加 上 一 个 额外 的 30 秒 等 
竺 时间) ，NameNode 将 退出 安全 模式 状态 。 接 下 来 它 会 确定 还 有 哪 


些 数据 块 的 副本 没有 达到 指定 数目 ， 并 将 这 些 数据 块 复制 到 其 他 
DataNode 上 。9.7 市 中 将 详细 介绍 安全 模式 的 相关 命令 。 


3. 文 件 安全 


NameNode 的 重要 性 是 显而易见 的 ， 没 有 它 客户 端 将 无 法 获得 文 
件 块 的 位 置 。 在 实际 应 用 中 ， 如 果 集 群 的 NameNode 出 现 故 障 ， 就 意 
味 着 整个 文件 系统 中 全 部 的 文件 会 丢失 ， 因 为 我 们 无 法 再 通过 
DataNode 上 的 文件 块 来 重 构 文 件 。 下 面 简单 介绍 Hadoop 是 采用 哪 种 机 
制 来 确保 NameNode 的 安全 的 。 


第 一 种 方法 是 ， 备 份 NameNode 上 持久 化 存储 的 元 数据 文件 ， 然 
后 将 其 转 储 到 其 他 文件 系统 中 ， 这 种 转 储 是 同步 的 、 原 子 的 操作 。 通 
常 的 实现 方法 是 ， 将 NameNode 中 的 元 数据 转 储 到 远程 的 NFS 文 件 系 统 
rH o 


第 二 种 方法 是 ， 系 统 中 同步 运行 一 个 Secondary NameNode (二 级 
NameNode) 。 这 个 市 点 的 主要 作用 就 是 周期 性 地 合并 编辑 日 志 中 的 
命名 空间 镜像 ， 以 避免 编辑 日 志 过 大 。Secondary NameNode 的 运行 通 
常 需要 大 量 的 CPU 和 内 存 去 做 合并 操作 ， 这 就 要 求 其 运行 在 一 台 单 独 
的 机 器 上 。 在 这 人 台 机 器 上 会 存储 合并 过 的 命名 空间 镜像 ， 这 些 镜像 文 
件 会 在 NameNode 宕 机 后 做 替补 使 用 ， 用 以 最 大 限度 地 减少 文件 的 损 
失 。 但 是 ， 需 要 注意 的 是 ，Secondary NameNode 的 同步 备份 总 会 滞后 


于 NameNode， 所 以 损失 是 必然 的 。 有 关 文 件 系统 镜像 和 编辑 日 志 的 


详细 介绍 请 参见 第 10 章 。 


9.4 HDFS 的 基本 操作 
本 节 将 对 HDFS 的 命令 行 操作 及 其 Web 界 面 进 行 介绍 。 
9.4.1 HDFS 的 命令 行 操 作 


可 以 通过 命令 行 接口 来 和 HDFS 进 行 交互 。 当 然 ， 命 令 行 接口 只 
苹 HDFS 的 访问 接口 之 一 ， 它 的 特点 十 更 加 们 单 直观 ， 便 于 使 用 ， 可 
以 进行 一 些 基本 操作 。 在 单机 上 运行 Hadoop、 执 行 单机 伪 分 布 (笔者 
的 环境 为 Windows 下 的 单 市 点 情况 ， 与 其 他 情况 下 命令 行 一 样 ， 大 家 
可 自行 参考 ) ， 具 体 的 安装 与 配置 可 以 参看 本 书 第 2 革 ， 随 后 我 们 会 介 
绍 如 何 运 行 在 集群 机 右上， 以 支持 可 扩展 性 和 容错 。 


在 单机 伪 分 布 的 配置 中 需要 修改 两 个 配置 属性 。 第 一 个 需要 修改 
的 配置 文件 属性 为 fs.default.name， 并 将 其 设置 为 hdfs: //localhost/， 用 
来 设 定 一 个 默认 的 Hadoop 文 件 系统 ， 再 使 用 一 个 hdfsURI 来 配置 说 
明 ，Hadoop 默 认 使 用 HDFS 文 件 系 统 。HDFS 的 守护 进程 会 通过 这 个 属 
性 来 为 NameNode 定 义 HDFS 中 的 主机 和 端口 。 这 里 在 本 机 localhost 运 
行 HDFS， 其 端口 采用 默认 的 8020。HDFS 的 客户 端 可 以 通过 这 个 属性 


访问 各 个 节点 。 


第 二 个 需要 修改 的 配置 文件 属性 为 dfs.replication， 因 为 采用 单机 
伪 分 布 ， 所 以 不 支持 副本 ，HDFS 不 可 能 将 副本 存储 到 其 他 两 个 节 
点 ， 因 此 要 将 配置 文件 中 默认 的 副本 数 3 改 为 1。 


下 面 就 具体 介绍 如 何 通 过 命令 行 访问 HDFS 文 件 系统 。 本 市 主要 
讨论 一 些 基 本 的 文件 操作 ， 比 如 读 文 件 、 创 建文 件 存储 路 径 、 转 移 文 
件 、 删 除 文 件 、 列 出 文件 列表 等 操作 。 在 终端 中 我 们 可 以 通过 输入 fs- 
help 获 得 HDFS 操 作 的 详细 帮助 信息 。 


首先， 我 们 将 本 地 的 一 个 文件 复制 到 HDFS 中 ， 操 作 命 令 如 下 : 


hadoop fs-copyFromLocal testInput/hello.txt 
hdfs: //localhost/user/ubuntu/In/hello.txt 


这 条 命令 调用 了 Hadoop 的 终端 命令 fs。Fs 文 持 很 多 子 命令 ， 这 里 
使 用 -copyFromLocal 命 令 将 本 地 的 文件 hello.txt 复 制 到 HDFS 中 
的 /user/ubuntw/In/hello.txt 下 。 事 实 上 ， 使 用 fs 命令 可 以 省 略 URI 中 的 访 
问 协 议和 主机 名 ， 而 直接 使 用 配置 文件 core-site.xml 中 的 默认 属性 值 
hdfs: /localhost， 即 命令 改 为 如 下 形式 即 可 : 


hadoop fs-copyFromLocal 
testInput/hello.txt/user/ubuntu/In/hello.txt 


其 次 ， 看 如 何 将 HDFS 中 的 文件 复制 到 本 机 ， 操 作 命令 如 下 : 


hadoop fs-copyToLocal/user/ubuntu/In/hello. txt 
testInput/hello.copy.txt 


命令 执行 后 ， 用 户 可 查看 根 目 录 testmput 文 件 夹 下 的 hello.copy.txt 
文件 以 验证 完成 从 HDFS 到 本 机 的 文件 复制 。 


下 面 查 看 创建 文件 夹 的 方法 : 


hadoop fs-mkdir testDir 


最 后 ， 用 命令 行 查看 HDFS 文 件 列表 : 


hadoop fs-lsr In 

-rw-r--r--1 ubuntu supergroup 348624 2012-03-11 11: 
34/user/ubuntu/In/CHANGES. txt 

-rw-r--r--1 ubuntu supergroup 13366 2012-03-11 11: 
34/user/ubuntu/In/LICENSE. txt 

-rw-r--r--1 ubuntu supergroup 101 2012-03-11 11: 
34/user/ubuntu/In/NOTICE. txt 

-rw-r--r--1 ubuntu supergroup 1366 2012-03-11 11: 
34/user/ubuntu/In/README. txt 

-rw-r--r--1 ubuntu supergroup 13 2012-03-17 15: 
14/user/ubuntu/In/hello.txt 


从 以 上 文件 列表 可 以 看 到 ， 命 令 返回 的 结果 和 Linux 下 ls-] 命 令 返 
回 的 结果 相似 。 返 回 结果 第 一 列 是 文件 属性 ， 第 二 列 是 文件 的 副本 因 
子 ， 而 这 是 传统 的 Linux 系 统 没有 的 。 为 了 方便 ， 笔 者 配置 环境 中 的 副 
本 因子 设置 为 |， 所 以 这 里 显示 为 1， 我 们 也 看 到 了 从 本 地 复制 到 In 文 
件 夹 下 的 hello.txt 文 件 。 


9.4.2 HDFS 的 Web 界 面 


在 部 署 好 Hadoop 集 群 之 后 ， 便 可 以 直接 通过 
http: /NameNodeIP: 50070 访 问 HDFS 的 Web 界 面 了 。HDFS 的 Web 界 
面 提 供 了 基本 的 文件 系统 信息 ， 其 中 包括 集群 启动 时 间 、 版 本 号 、 编 
译 时 间 及 是 否 又 升级 。 


HDFS 的 Web 界 面 还 提供 了 文件 系统 的 基本 功能 : Browse the 
filesystem 《浏览 文件 系统 ) ， 点 击 链接 即 可 看 到 ， 它 将 HDFS 的 文件 
结构 通过 目录 的 形式 展现 出 来 ， 增 加 了 对 文件 系统 的 可 读 性 。 此 外 ， 
可 以 直接 通过 Web 界 面 访问 文件 内 容 。 同 时 ，HDFS 的 Web 界 面 还 将 该 
文件 块 所 在 的 市 点 位 置 展现 出 来 。 可 以 通过 设置 Chunk size to view 
设置 一 次 读 取 并 展示 的 文件 块 大 小 。 


除了 在 本 市 中 展示 的 信息 之 外 ，HDFS 的 Web 界 面 还 提供 了 
NameNode 的 日 志 列 表 、 运 行 中 的 市 点 列表 及 宕 机 的 市 点 列表 等 信 
H o 
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9.5 HDFS 和 常用 Java API 详 解 


9.1 中 已 经 了 解 了 Java API 的 重要 性 ， 本 节 深 入 介绍 Hadoop 的 
Filesystem 类 与 Hadoop 文 件 系 统 进行 交互 的 API。 


9.5.1 ”使 用 Hadoop URL 读 取 数 据 


如 有 果 想 从 Hadoop 中 读 取 数据 ， 最 简单 的 办 法 束 是 使 用 
java.netLURL 对 象 打开 一 个 数据 流 ， 并 从 中 读 取 数 据 ， 一 般 的 调用 格式 
aR: 


InputStream in=null; 

try{ 

in=new URL ("hdfs: //NameNodeIP/path") .openStream () ; 
//process in 

}finally{ 

IOUtils.closeStream (in) ; 


} 
这 里 要 进行 的 处 理 是 ， 通 过 FsUrlStreamHandlerFactory 实 例 来 调用 
在 URL 中 的 setURL-StreamHandlerFactory 方 法 。 这 种 方法 在 一 个 Java 虚 
拟 机 中 只 能 调用 一 次 ， 因 此 放 在 一 个 静态 方法 中 执行 。 这 意味 着 如 采 
程序 的 其 他 部 分 也 设置 了 一 个 URLStreamHandlerFactory， 那 么 会 导致 
无 法 再 从 Hadoop 中 读 取 数据 。 


读 取 文 件 系 统 中 的 路 径 为 


hdfs: /NameNodeIPmuservubuntuInhello.txt 的 文件 hellotxt， 如 例 9-1 所 
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这 里 假设 hello.txt 的 文件 内 容 为 "Hello Hadoop! ” ° 


例 9-1: 使 用 URLStreamHandler 以 标准 输出 显示 Hadoop 文 件 系 统 


文件 


package cn.edn.ruc.cloudcomputing.book.chapterog; 
import java.io.*; 

import java.net.URL; 

import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; 
import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.filecache.DistributedCache; 
import org.apache.hadoop.conf.*; 

import org.apache.hadoop.io.*; 

public class URLCat{ 

static{ 

URL.SsetURLStreamHandlerFactory (new FsUr1lStreamHandlerFactory 


ae 


public static void main (String[]args) throws Exception{ 
InputStream in=null; 

try{ 

in=new URL (args[0]) .openStream () ; 

IOUtils.copyBytes (in, System.out, 4096, false) ; 
}finally{ 

IOUtils.closeStream (in) ; 

} 

} 

} 


然后 在 Eclipse 下 设置 程序 运行 参数 为 : 


hdfs: /NameNodeIPmuserubuntuIn/hello.txt， 运 行程 序 即 可 看 到 
hello.txt 中 的 文本 内 容 。 


需要 说 明 的 是 ， 这 里 使 用 了 Hadoop 中 简洁 的 IOUtils 类 来 关闭 
finally 子 句 中 的 数据 流 ， 同 时 复制 输出 流 之 间 的 字 节 (System.out) 。 
例 9-1 中 用 到 的 IOUtils.copyBytes () 方法 ， 其 中 的 两 个 参数 ， 前 者 表 
示 复 制 缓冲 区 的 大 小 ， 后 者 表示 复制 后 关闭 数据 流 。 


9.5.2 ”使 用 FileSystem API 读 取 数 据 


9.5.1 “ 节 提 到 在 应 用 中 会 出 现 不 能 使 用 URLStreamHandlerFactory 
的 情况 ， 这 时 就 需要 使 用 FileSystem 的 API 打 开 一 个 文件 的 输入 流 了 。 


文件 在 Hadoop 文 件 系统 中 被 视 为 一 个 Hadoop Path 对 象 。 我 们 可 以 
把 一 个 路 径 视 为 Hadoop 的 文件 系统 URI， 比 如 上 文中 的 


hdfs: //localhost/user/ubuntu/In/hello.txt ° 


FileSystemAPI 是 一 个 高 层 抽 象 的 文件 系统 API， 所 以 ， 首 移 要 找 
到 这 里 的 文件 系统 实例 HDFS。 取 得 FileSystem 实 例 有 两 种 静态 工厂 方 
法 : 


public static FileSystem get (Configuration conf) throws 


IOException 


public static FileSystem get (URI uri, Configuration conf) throws 


IOException 
Configuration 对 象 封 装 了 一 个 客户 端 或 服务 器 的 配置 ， 这 是 用 路 


径 读 取 的 配置 文件 设置 的 ， 一 般 为 conf/core-site.xml。 第 一 个 方法 返回 
的 是 默认 文件 系统 ， 如 果 没 有 设置 ， 则 为 默认 的 本 地 文件 系统 。 第 二 


个 方法 使 用 指定 的 URI 方 案 决定 文件 系统 的 权限 ， 如 果 指 定 的 URI 中 没 
有 指定 方案 ， 则 退回 默认 的 文件 系统 。 


有 了 FileSystem 实 例 后 ， 可 通过 open () 方法 得 到 一 个 文件 的 输入 


public FSDataInputStream open (Path f) throws IOException 
public abstract FSDataInputStream open (Path f, int bufferSize) 
throws IOException 


第 一 个 方法 直接 使 用 默认 的 4KB 的 缓冲 区 ， 如 例 9-2 所 示 。 
例 9-2: 使 用 FileSystem API 显 示 Hadoop 文 件 系统 中 的 文件 


public class FileSystemCat{ 

public static void main (String[]args) throws Exception{ 
String uri=args[0]; 

Configuration conf=new Configuration () ; 

FileSystem fs=FileSystem.get (URI.create (uri) , conf) ; 
InputStream in=null; 

try{ 

in=fs.open (new Path (uri) ) ; 

IOUtils.copyBytes (in, System.out, 4096, false) ; 
}finally{ 

IOUtils.closeStream (in) ; 

} 

} 

} 


然后 设置 程序 运行 参数 为 
hdfs: localhostuservubuntuInhello.txt， 运 行程 序 即 可 看 到 hello.txt 中 
的 文本 内 容 “Hello Hadoop! ” ° 


下 面 对 例 9-2 中 的 程序 进行 扩展 ， 重 点 关注 FSDataInputStream ° 


FileSystem 中 的 open 方 法 实际 上 返回 的 是 一 个 FSDataInputStream , 
而 不 是 标准 的 java.io 类 。 这 个 类 是 java.io.DataInputStream 的 一 个 子 类 ， 
文 持 随 机 访问 ， 并 可 以 从 流 的 任意 位 置 读 取 ， 代 码 如 下 : 


public class FSDataInputStream extends DataInputStream 
implements Seekable, PositionedReadable{ 
//implementation elided 


} 


Seekable 接 口 允许 在 文件 中 定位 并 提供 一 个 查询 方法 用 于 查询 当 
前 位 置 相 对 于 文件 开始 的 偏 移 量 (getPos O ) ， 代 码 如 下 : 


public interface Seekable{ 

void seek (long pos) throws IOException; 

long getPos () throws IOException; 

boolean seekToNewSource (long targetPos) throws IOException; 


} 


其 中 ， 调 用 seek () 来 定位 大 于 文件 长 度 的 位 置 会 导致 
IOException 异 常 。 开 发 人 员 并 不 常用 seekT-oNewSource () 方法 ， 此 
方法 倾 回 于 切换 到 数据 的 另 一 个 副本 ， 并 在 新 的 副本 中 找寻 targetPos 
制定 的 位 置 。HDFS 束 采用 这 样 的 方法 在 数据 节点 出 现 故 障 时 为 客户 
剖 提 供 可 靠 的 数据 流 访 问 的 。 如 例 9-3 所 示 。 


例 9-3: 扩展 例 9-2， 通 过 使 用 seek 读 取 一 次 后 ， 重 新 定位 到 文件 头 
第 三 位 ， 再 次 显示 Hadoop 文 件 系 统 中 的 文件 内 容 


package cn.edn.ruc.cloudcomputing.book.chapterog; 
import java.io.*; 

import java.net.URI; 

import java.net.URL; 

import java.util.’*; 

import org.apache.hadoop.fs.FSDataInputStream; 

import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; 
import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.fs.FileSystem; 

import org.apache.hadoop.filecache.DistributedCache; 
import org.apache.hadoop.conf.*; 

import org.apache.hadoop.io.*; 

import org.apache.hadoop.mapred.*; 

import org.apache.hadoop.util.*; 

public class DoubleCat{ 

public static void main (String[]args) throws Exception{ 
String uri=args[0]; 

Configuration conf=new Configuration () ; 

FileSystem fs=FileSystem.get (URI.create (uri) , conf) ; 
FSDataInputStream in=null; 

try{ 

in=fs.open (new Path (uri) ) ; 

IOUtils.copyBytes (in, System.out, 4096, false) ; 
in.seek (3) ; //go back to pos 3 of the file 
IOUtils.copyBytes (in, System.out, 4096, false) ; 
}finally{ 

IOUtils.closeStream (in) ; 


} 
} 
} 


然后 设置 程序 运行 参数 为 
hdfs: localhostyuservubuntuIn/hello.txt， 运 行程 序 即 可 看 到 hello.txt 中 


的 文本 内 容 “Hello Hadoop! lo Hadoop! ”。 


同时 ，FSDataInputStream 也 实现 了 PositionedReadable 接 口 ， 从 一 
个 制定 位 置 读 取 一 部 分 数据 。 这 里 不 再 详细 介绍 ， 大 家 可 以 参考 以 下 
源 代码 。 


public interface PositionedReadable{ 

public int read (long position, byte[]buffer, int offset, int 
length) 

throws IOException; 

public void readFully (long position, byte[]buffer, int offset, 
int length) 

throws IOException; 

public void readFully (long position, byte[]buffer) throws 
IOException; 


} 


需要 注意 的 是 ，seek () 是 一 个 高 开销 的 操作 ， 需 要 慎重 使 用 。 
通常 我 们 是 依靠 流 数 据 MapReduce 构 建 应 用 访问 模式 ， 而 不 是 大 量 地 
执行 seek 操 作 。 


9.5.3 EHK 


FileSystem 显 然 也 提供 了 创建 目录 的 方法 ， 代 码 如 下 : 


public boolean mkdirs (Path f) throws IOException 


这 个 方法 会 按照 客户 端 请 求 创建 未 存在 的 父 目 孙 ， 怠 像 java.io.File 
的 mkdirs () 一 样 。 如 果 目 录 包 括 所 有 父 目 录 且 创建 成 功 ， 那 么 它 会 
返回 true。 事 实 上 ， 一 般 不 需要 特别 地 创建 一 个 目 隶 ， 因 为 调用 creat 
() 时 写 入 文件 会 自动 生成 所 有 的 父 目录 。 


9.5.4” 写 数据 


FileSystem 还 有 一 系列 创建 文件 的 方法 ， 最 简单 的 就 是 给 拟 创建 的 
文件 指定 一 个 路 径 对 象 ， 然 后 返回 一 个 写 输出 流 ， 代 码 如 下 


public FSDataOutputStream create (Path f) throws IOException 


XA AIRS BRATZ, MA, BT ieee ae rl R 
件 、 设 定 文件 副本 数量 、 设 置 写 入 文件 缓冲 区 大 小 、 文 件 块 大 小 及 设 
置 文件 许可 等 。 


还 有 一 个 用 于 传递 回调 接口 的 重 载 方法 Progressable， 通 过 这 个 方 
TARA) LGA AS AGERE, TORSO: 


package org.apache.hadoop.util; 
public interface Progressable{ 
public void progress () ; 


新 建文 件 也 可 以 使 用 append () 在 一 个 已 有 文件 中 追加 内 容 ， 这 
个 方法 也 有 重 载 ， 代 码 如 下 : 


public FSDataOutputStream append (Path f) throws IOException 


这 个 方法 对 于 写 入 日 志文 件 很 有 用 ， 比 如 在 重启 后 可 以 在 之 前 的 
日 志 中 继续 添加 内 容 ， 但 并 不 是 所 有 的 Hadoop 文 件 系统 都 支持 此 方 
法 ， 比 如 HDFS 支 持 ， 但 S3 不 支持 。 


例 9-4 展 示 了 如 何 将 本 地 文件 复制 到 Hadoop 的 文件 系统 ， 当 
Hadoop 调 用 progress () 方法 时 ， 也 就 是 在 每 64KB 数 据 包 写 入 数据 市 
点 管道 之 后 ， 打 印 一 个 星 号 来 展示 整个 过 程 。 


例 9-4: 将 本 地 文件 复制 到 Hadoop 文 件 系统 并 显示 进度 


public class FileCopywithProgress{ 

public static void main (String[]args) throws Exception{ 

String localSrc=args[0]; 

String dst=args[1]; 

InputStream in=new BufferedInputStream (new FileInputStream 
(localSrc) ) ; 

Configuration conf=new Configuration () ; 

FileSystem fs=FileSystem.get (URI.create (dst) , conf) ; 

OutputStream out=fs.create (new Path (dst) , new Progressable () { 

public void progress () { 

System.out.print ("*") ; 

} 

p); 

IOUtils.copyBytes (in, out, 4096, true) ; 

} 

} 


然后 配置 应 用 参数 ， 可 以 看 到 控制 台 输 出 “******»， 即 上 传 显 示 
进度 ， 每 写 入 64KB 即 输出 一 个 *。 目 前 其 他 文件 系统 写 入 时 都 不 会 调 
用 progeress () 。 


9.5.3 节 在 介绍 读数 据 时 提 到 FSDataInputStream， 这 里 FileSystem 中 
的 creat () 方法 也 返回 一 个 FSDataOutputStream， 它 也 有 一 个 查询 文 
件 当前 位 置 的 方法 ， 代 码 如 下 : 


package org.apache.hadoop.fs; 

public class FSDataOutputStream extends DataOutputStream 
implements Syncable{ 

public long getPos () throws I0Exception{ 

//implementation elided 


J 


//implementation elided 


} 


但 是 它 与 FSDataInputStream 不 同 ，FSDataOutputStream 不 允许 定 
位 。 这 是 因为 HDFS 只 对 一 个 打开 的 文件 顺序 写 入 ， 或 者 向 一 个 已 有 
的 文件 添加 。 换 名 话说 ， 它 不 支持 对 除 文件 尾部 以 外 的 其 他 位 置 进行 
写 入 ， 这 样 ， 写 入 时 的 定位 就 没有 意义 了 。 


9.5.5 删除 数据 


使 用 FileSystem 的 delete () 可 以 永久 删除 Hadoop 中 的 文件 或 目 
= 


public boolean delete (Path f, boolean recursive) throws 
IOException 


如 果 传 入 的 {为 空 文件 或 空 日 隶 ， 那 么 recursive 值 会 被 忽略 。 只 
当 recursive 的 值 为 true 时 ， 非 空 的 文件 或 目录 才 会 被 删除 ， 否 则 抛 出 异 


= 


吊 O 


9.5.6 ”文件 系统 查询 


同样 ，Java API 提 供 了 文件 系统 的 基本 查询 接口 。 通 过 这 个 接 
口 ， 可 以 查询 系统 的 元 数据 信息 和 文件 目录 结构 ， 并 可 以 进行 更 复 灯 
的 目录 匹配 等 操作 。 下 面 将 一 一 进行 介绍 。 


1. 文 件 元 数据 : Filestatus 


任何 文件 系统 要 具备 的 重要 功能 驶 是 定位 其 目录 结构 及 检索 器 存 
储 的 文件 和 上 日 好 信息 。FileStatus 类 封装 了 文件 系统 中 文件 和 目录 的 元 


数据 ， 其 中 包括 文件 长 度 、 块 大 小 、 副 本 、 修 改 时 间 、 所 有 者 和 许可 
信息 等 。 


FileSystem 的 getFileStatus () 方法 提供 了 获取 一 个 文件 或 目录 的 
状态 对 象 的 方法 ， 如 例 9-5 所 示 。 


例 9-5: 获取 文件 状态 信息 


public class ShowFileStatusTest{ 

private MiniDFSCluster cluster; //use an in-process HDFS cluster 
for testing 

private FileSystem fs; 

@Before 

public void setUp () throws IOException{ 

Configuration conf=new Configuration () ; 

if (System.getProperty ("test.build.data") ==null) { 

System.setProperty ("test.build.data", "/tmp") ; 

} 


cluster=new MiniDFSCluster (conf, 1, true, null) ; 

fs=cluster.getFileSystem () ; 

OutputStream out=fs.create (new Path ("/dir/file") ) ; 

out.write ("Content".getBytes ("UTF-8") ) ; 

out.close () ; 

} 

@Af ter 

public void tearDown () throws IOException{ 

if (fs! =null) {fs.close () ; } 

if (cluster! =null) {cluster.shutdown () ; } 

} 

@Test (expected=FileNotFoundException.class) 

public void throwsFileNotFoundForNonExistentFile () throws 
IOException{ 

fs.getFileStatus (new Path ("no-such-file") ) ; 

} 

@Test 

public void fileStatusForFile () throws IO0Exception{ 

Path file=new Path ("/dir/file") ; 

FileStatus stat=fs.getFileStatus (file) ; 

assertThat (stat.getPath () .toUri () .getPath () , is 
("/dir/file") ) ; 

assertThat (stat.isDir () , is (false) ) ; 

assertThat (stat.getLen () , is (7L) ) ; 

assertThat (stat.getModificationTime () , 

is (lessThanOrEqualTo (System.currentTimeMillis () ) ) ) ; 

assertThat (stat.getReplication () , is ( (short) 1) ) ; 

assertThat (stat.getBlockSize () , is (64*1024*1024L) ) ; 

assertThat (stat.getOwner () , is ("tom") ) ; 

assertThat (stat.getGroup () , is ("Supergroup") ) ; 

assertThat (stat.getPermission () .toString () , is ("rw-r--r-- 


@Test 

public void fileStatusForDirectory () throws IOException{ 
Path dir=new Path ("/dir") ; 

FileStatus stat=fs.getFileStatus (dir) ; 

assertThat (stat.getPath () .toUri () .getPath () , is ("/dir") ) ; 
assertThat (stat.isDir () , is (true) ) ; 

assertThat (stat.getLen () , is (OL) ) ; 

assertThat (stat.getModificationTime () , 

is (lessThanOrEqualTo (System.currentTimeMillis () ) ) ) ; 
assertThat (stat.getReplication () , is ( (short) 0) ) ; 
assertThat (stat.getBlockSize () , is (OL) ) ; 

assertThat (stat.getOwner () , is ("tom") ) ; 

assertThat (stat.getGroup () , is ("Supergroup") ) ; 
assertThat (stat.getPermission () .toString () , is ("rwxr-xr- 


x") ) ; 


Www 


WR CPE ARATE, tH FileNotFoundException: 
常 ， 如 果 只 对 文件 或 目录 是 否 存在 感 兴趣 ， 那 么 用 exists () 方法 更 方 
1B: 


public boolean exists (Path f) throws IOException 


2. 列 出 目录 文件 信息 


查找 文件 或 者 日 录 信 息 很 有 用 ,但 是 ， 有 时 需要 列 出 目录 的 内 
， 这 需要 使 用 lis-tStatus () 方法 ， 代 码 如 下 : 


mt 


public FileStatus[]listStatus (Path f) throws IOException 

public FileStatus[]listStatus (Path f, PathFilter filter) throws 
IOException 

public FileStatus[]listStatus (Path[]files) throws IOException 

public FileStatus[]listStatus (Path[]files, PathFilter filter) 
throws IOException 


当 传 入 参数 是 一 个 文件 时 ， 它 会 简单 地 返回 长 度 为 1 的 FileStatus 对 
象 的 一 个 数组 。 当 传 入 参数 为 一 个 目录 时 ， 它 会 返回 0 个 或 多 个 
FileStatus 对 象 ， 代 表 该 目录 所 包含 的 文件 和 子 目 录 。 


我 们 看 到 listStatus () 有 很 多 重 载 方法 ， 可 以 使 用 PathFilter 来 限 
制 匹 配 的 文件 和 目录 。 如 果 把 路 径 数组 作为 参数 来 调用 listStatus () 
方法 ， 其 结果 与 一 次 对 多 个 目录 进行 查询 、 再 将 FileStatus 对 象 数 组 收 


集 到 一 个 单一 的 数组 的 结 采 是 相同 的 。 当 然 我 们 可 以 感受 到 ， 前 者 更 
为 方便 。 例 9-6 是 一 个 简单 的 示范 。 


例 9-6 显示 Hadoop 文 件 系统 中 的 一 个 目录 的 文件 信息 


package cn.edn.ruc.cloudcomputing.book.chapterog; 
import java.util.*; 

import org.apache.hadoop.fs.FSDataInputStream; 

import org.apache.hadoop.fs.FileStatus; 

import org.apache.hadoop.fs.Fileutil; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.fs.FileSystem; 

public class ListStatus{ 

public static void main (String[]args) throws Exception{ 
String uri=args[0]; 

Configuration conf=new Configuration () ; 

FileSystem fs=FileSystem.get (URI.create (uri) , conf) ; 
Path[ ]paths=new Path[args.length]; 

for (int i=0; i<paths.length; i++) { 

paths[i]=new Path (args[i]) ; 


FileStatus[]status=fs.listStatus (paths) ; 
Path[]listedPaths=FileUtil.stat2Paths (status) ; 
for (Path p: listedPaths) { 

System.out.println (p) ; 

} 

} 

} 


配置 应 用 参数 可 以 查看 文件 系统 的 目录 ， 可 以 查看 HDFS 中 对 应 
文件 目录 下 的 文件 信息 。 


3. 通 过 通配符 实现 目 隶 沛 选 


有 时 候 我 们 需要 批量 处 理 文件 ， 比 如 处 理 日 志文 件 ， 这 时 可 能 要 
求 MapRedece 任 务 分 析 一 个 月 的 文件 。 这 些 文件 包含 在 大 量 目 邓 中 ， 


这 下 要求 我 们 进行 一 个 通配符 操作 ， 并 使 用 通配符 核对 多 个 文件 。 
Hadoop 为 通配符 提供 了 两 个 方法 ， 可 以 在 FileSystem 中 找到 |: 


public FileStatus[]globStatus (Path pathPattern) throws 
IOException 


public FileStatus[]globStatus (Path pathPattern, PathFilter 
filter) throws IOException 


globStatus () 返回 了 其 路 径 匹 配 所 提供 的 FileStatus 对 象 数组 ， 再 
按 路 径 进行 排序 ， 其 中 可 选 的 PathFilter 命 令 可 以 进一步 限定 匹配 。 


表 9-2 是 Hadoop 文 持 的 一 系列 通配符 。 


表 9-2 Hadoop 支持 的 通配符 及 其 作用 
匹配 功能 

匹配 人 个 或 多 个 字符 

匹配 一 全 字符 


| 
[ 
匹配 fa, b} 中 的 一 个 字符 
[^ab] 匹配 本 属于 ia, bi 中 的 一 全 字符 
[a-b] 匹配 在 {a,b} 范围 内 的 字符 “包括 a.b)，a EFIRU Leh PEF b 
[^a-b] 匹配 不 在 ta, b} 范围 内 的 字符 《包括 ab)，a 在 字 更 顺序 上 要 小 于 等 于 
a, b} ERES ask b HAYLE Hy 
[ 


匹配 元 字符 


下 面 通过 例子 进行 详细 说 明 ， 假 设 一 个 日 志文 件 的 存储 目录 是 分 
层 组 织 的， 其 中 目录 格式 为 年 /月 / 
日 : /2009/12/30、/2009/12/31、/2010/01/01、/2010/01/02。 表 9-3 是 通 
配 符 的 部 分 样 例 。 


9-3 通配符 使 用 样 例 
通配符 匹配 结果 
2009 /2010 
2009/12 /2010/01 
12/* 2009/12/30 (2009/12/31 
200* 2009 
200[9-10) 2009 /2010 
200[°0 12345678} 2009 
=/131,01} 2009/12/31 /201 001/01 


*/412/31, 01/01} 2009/12/31 /2010/01/01 
4 PathFilterst # 


使 用 通配符 有 时 也 不 一 定 能 够 精确 地 定位 到 要 访问 的 文件 集合 ， 
比如 排除 一 个 特定 的 文件 ， 这 时 可 以 使 用 FileSystem 中 的 listStatus () 
和 globStatus () 方法 提供 可 选 的 PathFileter 对 象 来 通过 编程 的 办 法 控 
制 匹 配 结 果 ， 如 下 面 的 代码 所 示 。 


package org.apache.hadoop.fs; 
public interface PathFilter{ 
boolean accept (Path path) ; 
} 


下 面 来 看 一 个 PathFilter 的 应 用 ， 如 例 9-7 所 示 。 
例 9-7: 使 用 PathFilter 排 除 匹 配 正 则 表达 式 的 目录 


public class RegexExcludePathFilter implements PathFilter{ 
private final String regex; 

public RegexExcludePathFilter (String regex) { 

this .regex=regex; 


public boolean accept (Path path) { 
return! path.toString () .matches (regex) ; 


Www 


个 过 滤 


如 将 留 下 与 正则 表达 式 不 匹配 的 文件 。 


9.6 HDFS 中 的 读 写 数据 流 


在 本 节 中 ， 我 们 将 对 HDFS 的 读 / 写 数据 流 进 行 详细 介绍 ， 以 帮助 
大 家 理解 HDFS 具 体 是 如 何 工作 的 。 


9.6.1 文件 的 读 取 


本 广 将 详细 介绍 在 执行 读 取 操作 时 客户 端 和 HDFS 交 互 过 程 的 实 
现 ， 以 及 NameNode 和 各 DataNode 之 间 的 数据 流 是 什么 。 下 面 将 围绕 
图 9-2 进 行 具体 讲解 。 
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9-2 ”客户 端 从 HDFS 中 读 取 数据 


首先 ， 客 户 端 通过 调用 FileSystem 对 象 中 的 open () 函数 来 读 取 它 
需要 的 数据 。FlieSystem 是 HDFS 中 DistributedFileSystem 的 一 个 实例 
(参见 图 9-2 第 1 步 ) 。DistributedFileSystem 会 通过 RPC 协 议 调用 


NameNode 来 确定 请 求 文件 块 所 在 的 位 置 。 这 里 需要 注意 的 是 ， 
NameNode 只 会 返回 所 调用 文件 中 开始 的 几 个 块 而 不 是 全 部 返回 ( 参 
见 图 9-2 第 2 步 ) 。 对 于 每 个 返回 的 块 ， 都 包含 块 所 在 的 DataNode 地 
址 。 随 后 ， 这 些 返 回 的 DataNode 会 按照 Hadoop 定 义 的 集群 拓扑 结构 得 
出 客户 端的 距离 ， 然 后 再 进行 排序 。 如 采 客 户 端 本 号 束 是 一 个 
DataNode， 那 么 它 将 从 本 地 读 取 文件 。 


其 次 ，DistributedFileSystem 会 癌 客 户 端 返回 一 个 文 持 文件 定位 的 
输入 流 对 象 FSDataInputrStream ， 用 于 给 客户 端 读 取 数 据 。 
FSDataInputStream 包 含 一 个 DFSInputStream 对 象 ， 这 个 对 象 用 来 管理 


DataNode 和 NameNode 之 间 的 MO。 


当 以 上 步骤 完成 时 ， 客 户 端 便 会 在 这 个 输入 流 之 上 调用 read () 
函数 (参见 图 9-2 第 3 步 ) 。DFSInputStream 对 象 中 包含 文件 开始 部 分 
数据 块 所 在 的 DataNode 地 址 ， 首 移 它 会 连接 包含 文件 第 一 个 块 最 近 的 
DataNode。 随 后 ， 在 数据 流 中 重复 调用 read () 函数 ， 直 到 这 个 块 全 
部 读 完 为 止 (参见 图 9-2 第 4 步 ; 。 当 最 后 一 个 块 读 取 完毕 时 ， 
DFSInputStream 会 天 闭 连接 ， 并 查找 存储 下 一 个 数据 块 距离 客户 端 最 
近 的 DataNode (参见 图 9-2 第 5 步 ) 。 以 上 这 些 步 又 对 客户 端 来 说 都 是 
透明 的 。 


客户 端 按 照 DFSInpuStream 打 开 和 DataNode 连 接 返 回 的 数据 流 的 
顺序 读 取 该 块 ， 它 也 会 调用 NameNode 来 检索 下 一 组 块 所 在 的 


DataNode 的 位 置信 息 。 当 完成 所 有 文件 的 读 取 时 ， 窜 户 端 则 会 在 
FSDataInputStream 中 调用 close () 函数 〈 参 见 图 9-2 第 6 步 ) 


当然 ，HDFS 会 考虑 在 读 取 中 节点 出 现 故 障 的 情况 。 目 前 HDFS 是 
这 样 处 理 的 : 如 采 客 户 端 和 所 连接 的 DataNode 在 读 取 时 出 现 故 障 ， 那 
么 它 束 会 去 笑 试 连接 存储 这 个 块 的 下 一 个 最 近 的 DataNode， 同 时 它 会 
记录 这 个 市 点 的 故障 ， 这 样 它 束 不 会 再 去 竹 试 连 授 和 读 取 块 。 客 户 端 
还 会 验证 从 DataNode 传 送 过 来 的 数据 校 验 和 。 如 果 发 现 一 个 损坏 的 
块 ， 那 么 客户 端 将 会 再 答 试 从 别 的 DataNode 读 取 数 据 块 ， 回 
NameNode 报 告 这 个 信息 ，NameNode 也 会 更 新 保存 的 文件 信息 。 


这 里 要 关注 的 一 个 设计 要 点 是 ， 客 户 端 通过 NameNode 引 导 获取 
最 合适 的 DataNode 地 址 ， 然 后 直接 连接 DataNode 读 取 数 据 。 这 种 设计 
的 好 处 在 于 ， 可 以 使 HDFS 扩 展 到 更 大 规模 的 客户 端 并 行 处 理 ， 这 十 
为 数据 的 流动 是 在 所 有 DataNode 之 间 分 散 进行 的 ， 同 时 NameNode 
的 压力 也 变 小 了 ， 使 得 NameNode 只 用 提供 请 求 块 所 在 的 位 置信 息 就 
可 以 了 ， 而 不 用 通过 它 提 供 数 据 ， 这 样 束 避免 了 NameNode 随 着 客户 
端 数量 的 增长 而 成 为 系统 瓶颈 。 


9.6.2 ”文件 的 写 入 


本 人 小节 将 对 HDFS 中 文件 的 写 入 过 程 进 行 详细 介绍 。 图 9-3 就 是 在 
HDFS 中 写 入 一 个 新 文件 的 数据 流 图 。 


第 一 ， 客 户 端 通过 调用 DistributedFileSystem 对 象 中 的 creat () EK 
数 创建 一 个 文件 (参见 图 9-3) 。DistributedFileSystem 通 过 RPC 调 用 在 
NameNode 的 文件 系统 命名 空间 中 创建 一 个 新 文件 ， 此 时 还 没有 相关 
的 DataNode 与 之 关联 。 


第 二 ，NameNode 会 通过 多 种 验证 保证 新 的 文件 不 存在 文件 系统 
中 ， 并 且 确 保 请 求 客 户 端 拥有 创建 文件 的 权限 。 当 所 有 验证 通过 时 ， 
NameNode 会 创建 一 个 新 文件 的 记录 ， 如 果 创 建 失败 ， 则 抛 出 一 个 
IOException 异 常 ， 如 果 成 功 ， 则 DistributedFileSystem 返 回 一 个 
FSDataOutputStream 给 客户 端 用 来 写 入 数据 。 这 里 FSDataOutputStream 
和 读 取 数据 时 的 FSDataInputStream 一 样 都 包含 一 个 数据 流 对 象 
DFSOutputStream， 客 户 端 将 使 用 它 来 处 理 和 DataNode 及 NameNode 之 
间 的 通信 。 


第 三 ， 当 客户 端 写 入 数据 时 ，DFSOutputStream 会 将 文件 分 割 成 
包 ， 然 后 放 入 一 个 内 部 队列 ， 我 们 称 为 “数据 队列 ”。DataStreamer 会 将 
这 些小 的 文件 包 放 入 数据 流 中 ，DataStreamer 的 作用 是 请 求 NameNode 


为 新 的 文件 包 分 配合 适 的 DataNode 存 放 副 本 。 返 回 的 DataNode 列 表 形 
成 一 个 “管道 >， 假设 这 里 的 副本 数 是 3， 那 么 这 个 管道 中 束 会 有 3 个 
DataNode。DataStreamer 将 文件 包 以 流 的 方式 传送 给 队列 中 的 第 一 个 
DataNode。 第 一 个 DataNode 会 存储 这 个 包 ， 然 后 将 它 推 送 到 第 二 个 
DataNode 中 ， 随 后 照 这 样 进行 ， 直 到 管道 中 的 最 后 一 个 DataNode 。 


9-3 ”客户 端 在 HDFS 中 写 入 数据 


第 四 ，DFSOutputStream 同 时 也 会 保存 一 个 包 的 内 部 队列 ， 用 来 等 
待 管道 中 的 DataNode 返 回 确认 信息 ， 这 个 队列 被 称 为 确认 队列 (ack 
queue) 。 只 有 当 所 有 管道 中 的 DataNode 都 返回 了 写 入 成 功 的 返回 信息 
文件 包 ， 才 会 从 确认 队列 中 删除 。 


当然 HDFS 会 考虑 写 入 失败 的 情况 ， 当 数据 写 入 市 点 失败 时 ， 
HDFS 会 做 出 以 下 反应 。 首 先 管道 会 被 关闭 ， 任 何在 确认 通知 队列 中 
的 文件 包 都 会 被 添加 到 数据 队列 的 前 端 ， 这 样 管道 中 失败 的 DataNode 


都 不 会 丢失 数据 。 当 前 存放 于 正常 工作 DataNode 之 上 的 文件 块 会 被 赋 
予 一 个 新 的 身份 ， 并 且 和 NameNode 进 行 关联 ， 这 样 ， 如 果 失 败 的 
DataNode 过 段 时 间 从 故障 中 恢复 出 来 ， 其 中 的 部 分 数据 块 焉 会 被 删 
除 。 然 后 管道 会 把 失败 的 DataNode 删 除 ， 文 件 会 继续 被 写 到 管道 中 的 
另外 两 个 DataNode 中 。 最 后 NameNode 会 注意 到 现在 的 文件 块 副 本 数 
没有 达到 配置 属性 要 求 ， 会 在 另外 的 DataNode 上 重新 安排 创建 一 个 副 
本 。 随 后 的 文件 会 正常 执行 写 入 操作 。 


当然 ， 在 文件 块 写 入 期 间 ， 多 个 DataNode 同 时 出 现 故障 的 可 能 性 
存在 ， 但 是 很 小 。 只 要 dfs.replication.min 的 属性 值 (默认 为 1) 成 功 写 
入 ， 这 个 文件 块 吏 会 被 异步 复制 到 集群 的 其 他 DataNode 中 ， 直 到 满足 
dfs.replication 属 性 值 《默认 为 3) ° 


客户 端 成 功 完成 数据 写 入 的 操作 后 ， 束 会 调用 6 种 close () 函数 
关闭 数据 流 (参见 图 9-3 第 6 步 ; 。 这 步 操 作 会 在 连接 NameNode 确 认 文 
件 写 入 完全 之 前 将 所 有 剩 下 的 文件 包 放 入 DataNode 管 道 ， 等 行 通知 确 
认 信 息 。NameNode 会 知道 哪些 块 组 成 一 个 文件 (通过 DataStreamer 获 
得 块 位 置信 息 ) ， 这 样 NameNode 只 要 在 返回 成 功 标 志 前 等 待 块 被 最 


小 量 (dfs.replication.min) 复制 即 可 。 


9.6.3 “一致 性 模型 


文件 系统 的 一 致 性 模型 描述 了 文件 读 / 写 的 可 见 性 。HDFS 辆 牲 了 
一 些 pOSIX 的 需求 来 补偿 性 能 ， 所 以 有 些 操作 可 能 会 和 传统 的 文件 系 
统 不 同 。 


当 创 建 一 个 文件 时 ， 它 在 文件 系统 的 命名 空间 中 是 可 见 的 ， 代 码 
如 下 : 
Path p=new Path ("p") ; 


fs.create (p) ; l 
assertThat (fs.exists (p) , is (true) ) ; 


但 是 对 这 个 文件 的 任何 写 操作 不 保证 是 可 见 的 ， 即 使 在 数据 流 已 
经 刷新 的 情况 下 ， 文 件 的 长 度 很 长 时 间 也 会 显示 为 0: 
Path p=new Path ("p") ; 
OutputStream out=fs.create (p) ; 
out.write ("content".getBytes ("UTF-8") ) ; 


out.flush () ; . . 
assertThat (fs.getFileStatus (p) .getLen () , is (OL) ) ; 
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块 ， 而 对 当前 写 入 的 块 ， 大 家 是 看 不 见 的 。HDFS 提 供 了 所 有 缓存 和 
DataNode 之 间 的 数据 强制 同步 的 方法 ， 这 个 方法 是 
FSDataOutputStream 中 的 sync () 函数 。 当 sync () 函数 返回 成 功 时 ， 
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失 ， 代 码 如 下 : 


Path p=new Path ("p") ; 

FSDataOutputStream out=fs.create (p) ; 

out.write ("content".getBytes ("UTF-8") ) ; 

out.flush () 

out.sync () ; 

assertThat (fs.getFileStatus (p) .getLen () , is 
( ( (long) "content".length O ) ) ) ; 


这 个 操作 类 似 于 UNIX 系 统 中 的 fsync 系 统 调 用 ， 为 一 个 文件 描述 
符 提 区 缓存 数据 ， 利 用 Java API 写 入 本 地 数据 ， 这 样 整 可 以 保证 看 到 
刷新 流 并 且 同 步 之 后 的 数据 ， 代 码 如 下 : 


FileOutputStream out=new FileOutputStream (localFile) ; 

out.write ("content".getBytes ("UTF-8") ) ; 

out.flush () ; //flush to operating system 

out.getFD () .sync () ; //sync to disk 

assertThat (localFile.length () , is ( ( (long) "content".length 
ODDER 


在 HDFS 中 关闭 一 个 文件 也 隐 式 地 执行 了 sync () KZ, ARAN 
‘FP: 


Path p=new Path ("p") ; 

OutputStream out=fs.create (p) ; 

out.write ("content".getBytes ("UTF-8") ) ; 

out.close () 

assertThat (fs.getFileStatus (p) .getLen () , is 
( ( (long) "content".length O ) ) ) ; 


下 面 来 了 解 一 致 性 模型 对 应 用 设计 的 重要 性 。 文 件 系统 的 一 致 性 
和 设计 应 用 程序 的 方法 有 关 。 如 果 不 调 用 sync \) ， 那 么 需要 做 好 因 
客户 端 或 者 系统 发 生 故 障 而 丢失 部 分 数据 的 准备 。 对 大 多 数 应 用 程序 
来 说 ， 这 是 不 可 接受 的 ， 所 以 需要 在 合适 的 时 刻 调用 sync O ， 比 如 
在 写 入 一 定量 的 数据 之 后 。 尽 管 sync () 被 设计 用 来 最 大 限度 地 减少 
HDFS 的 负担 ， 但 是 它 仍 然 有 不 可 忽视 的 开销 ， 所 以 需要 在 数据 健壮 
性 和 否 吐 量 之 间 做 好 权衡 。 其 中 一 个 好 的 参考 平衡 点 束 是 ， 通 过 测试 
应 用 程序 来 选择 不 同 sync () 频率 间 性 能 的 最 佳 平衡 点 。 


9.7 HDFS 命 令 详解 


Hadoop 近 供 了 一 组 shell 命 令 在 命令 行 终端 对 Hadoop 进 行 操作 。 这 
些 操作 包括 诸如 格式 化 文件 系统 、 上 传 和 下 载 文件 、 局 动 DataNode、 
查看 文件 系统 使 用 情况 、 运 行 JAR 包 等 几乎 所 有 和 Hadoop 相 关 的 操 
作 。 本 节 将 具体 介绍 HDFS 的 相关 命令 操作 。 


9.7.1 通过 distcp 进 行 并 行 复制 


Java API 等 多 种 接口 对 HDFS 访 问 模 型 都 集中 于 单线 程 的 存 取 ， 如 
采 要 对 一 个 文件 集 进行 操作 ， 束 需要 编写 一 个 程序 进行 并 行 操 作 。 
HDFS 提 供 了 一 个 非常 实用 的 程序 一 distcp， 用 来 在 Hadoop 文 件 系统 
并 行 地 复制 大 数据 量 文件 。distcp 一 般 适 用 于 在 两 个 HDFS 和 集群 间 传 送 
数据 的 情况 。 如 果 两 个 集群 都 运行 在 同一 个 Hadoop 版 本 上 ， 那 么 可 以 
使 用 HDFS 模 式 : 


hadoop distcp hdfs: //NameNode1/foo hdfs: //NameNode2/bar 


这 条 命令 会 将 第 一 个 集群 /foo 文 件 夹 以 及 文件 夹 下 的 文件 复制 到 
第 二 个 集群 /bar 目 隶 下 ， 即 在 第 二 个 集群 中 会 以 /bar/foo 的 目录 结构 出 
现 。 如 果 /bar 目 孙 不 存在 ， 则 系统 会 新 建 一 个 。 也 可 以 指定 多 个 数据 


源 ， 并 且 所 有 的 内 容 都 会 被 复制 到 目标 路 径 。 需 要 注意 的 是 ， 源 路 径 
必须 是 绝对 路 径 。 


默认 情况 下 ， 虽 然 distcp 会 跳 过 在 目标 路 径 上 已 经 存在 的 文件 ， 但 
是 通过 -overwirte 选 项 可 以 选择 对 这 些 文 件 进行 履 盖 重 写 ， 也 可 以 使 用 - 
update 选 项 仅 对 更 新 过 的 文件 进行 重 写 。 


distcp 操 作 有 很 多 选项 可 以 设置 ， 比 如 忽略 失败 、 限 制 文件 或 者 复 
制 的 数据 量 等 。 直 接 输入 指令 或 者 不 附加 选项 可 以 查看 此 操作 的 使 用 
说 明 。 有 具体 实现 时 ，distcp 操 作 会 被 解析 为 一 个 MapReduce 操 作 来 执 
行 ， 当 没有 Reducer 操 作 时 ， 复 制 被 作为 Map 操 作 并 行 地 在 集群 节点 中 
运行 。 因 此 ， 每 个 文件 都 可 以 被 当成 一 个 Map 操 作 来 执行 复制 。 而 
distcp 会 通过 执行 多 个 文件 聚集 捆绑 操作 ， 尽 可 能 地 保证 每 个 Map 操 作 
执行 相同 数量 的 数据 。 那 么 执行 distcp 时 ，Map 操 作 如 何 确定 呢 ? 由 于 
系统 需要 保证 每 个 Map 操 作 执 行 的 数据 量 是 合理 的 ， 来 最 大 化 地 减少 
Map 执 行 的 开销 ， 而 按 规定 ， 每 个 Map 最 少 要 执行 256MB 的 数据 量 
(除非 复制 的 全 部 数据 量 小 于 256MB) 。 比 如 要 复制 1GB 的 数据 ， 那 
么 系统 就 会 分 配 4 个 Map 任 务 ， 当 数据 量 非常 大 时 ， 就 需要 限制 执行 的 
Map 任 务 数 ， 以 限制 网 络 带宽 和 集群 的 使 用 率 。 默 认 情 况 下 ， 每 个 集 
群 的 一 个 节点 最 多 执行 20 个 Map 任 务 。 比 如 ， 要 复制 1000GB 数 据 到 
100 节 点 的 集群 中 ， 那 么 系统 就 会 分 配 2000 个 Map 任 务 (每 个 节点 20 
个 ) ， 也 就 是 说 ， 每 个 节点 会 平均 复制 512MB。 还 可 以 通过 调整 distcp 


的 -m 参 数 减 少 Map 任 务 量 ， 比 如 -m 1000 就 意味 着 分 配 1000 个 Maps， 


个 节点 分 配 1GB 数 据 量 。 


如 果 尝 试 使 用 distcp 进 行 HDFS 集 群 间 的 复制 ， 使 用 HDFS 模 式 之 
后 ，HDFS 运 行 在 不 同 的 Hadoop 版 本 之 上 ， 复 制 将 会 因为 RPC 系 统 的 
不 匹配 而 失败 。 为 了 纠正 这 个 错误 ， 可 以 使 用 基于 HTTP 的 HFTP 进 行 
访问 。 因 为 任务 要 在 目标 集群 中 执行 ， 所 以 HDFS 的 RPC 版 本 需要 匹 
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配 ， 在 HFTP 模 式 下 运行 的 代码 如 下 : 


hadoop distcp hftp: //NameNodei1: 50070/foo hdfs: //NameNode2/bar 


需要 注意 的 是 ， 要 定义 访问 源 的 URI 中 NameNode 的 网 络 接口 ， 这 
个 接口 会 通过 dfs.http.address 的 属性 值 设 定 ， 默 认 值 为 50070。 


9.7.2 HDFS 的 平衡 


当 复制 大 规模 数据 到 HDFS 时 ， 要 考虑 的 一 个 重要 因素 是 文件 系 

统 的 平衡 。 当 系统 中 的 文件 块 能 够 很 好 地 均衡 分 布 到 集群 各 点 时 ， 

HDFS 才 能 够 更 好 地 工作 ， 所 以 要 保证 distcp 操 作 不 会 打破 这 个 平衡 。 

回 到 前 面 复制 1000GB 数 据 的 例子 ， 当 设 定 -m 为 1， 就 意味 着 1 个 Map 操 
作 可 以 完成 1000GB 的 操作 。 这 样 不 仅 会 让 复制 操作 非常 慢 ， 而 且 不 能 
充分 利用 集群 的 性 能 。 最 重要 的 是 复制 文件 的 第 一 个 块 都 要 存储 在 执 
行 Map 任 务 的 那个 节点 上 ， 直 到 这 个 节点 的 磁盘 被 写 满 ， 显 然 这 个 节 
点 是 不 平衡 的 。 通 常 我 们 通过 设置 更 多 的 、 超 过 集群 节点 的 Map 任 务 
数 来 避免 不 平衡 情况 的 发 生 ， 所 以 最 好 的 选择 是 刚 开 始 还 是 使 用 的 默 
认 属 性 值 ， 每 个 节点 分 配 20 个 Map 任 务 。 


当然 ， 我 们 不 能 保证 集群 总 能 够 休 持 平衡 ， 有 了 时 可 能 会 限制 Map 
的 数量 以 便 厄 点 可 以 被 其 他 任务 使 用 ， 这 样 HDFS 还 提供 了 一 个 工具 
balancer (参见 第 10 章 ) 来 改变 集群 中 的 文件 块 存 储 的 平衡 。 


9.7.3 ”使 用 Hadoop 上 归档 文件 


在 9.2 节 中 介绍 过 ， 每 个 文件 HDFS 采 用 块 方式 进行 存储 ， 在 系统 
运行 时 ， 文 件 块 的 元 数据 信息 会 被 存储 在 NameNode 的 内 存 中 ， 因 
此 ， 对 HDFS 来 说 ， 大 规模 存储 小 文件 显然 是 低 效 的 ， 很 多 小 文件 会 
耗 尽 NameNode 的 大 部 分 内 存 。 


Hadoop 归 档 文件 和 HAR 文 件 可 以 将 文件 高 效 地 放 入 HDFS 块 中 的 
文件 存档 设备 ， 在 减少 NameNode 内 存 使 用 的 同时 ， 仍 然 允 许 对 文件 
进行 透明 访问 。 具 体 来 说 ，Hadoop 归 档 文 件 可 以 作为 MapReduce 的 输 
入 。 这 里 需要 注意 的 是 ， 小 文件 并 不 会 占用 太 多 的 磁盘 空间 ， 比 如 设 

定 一 个 128MB 的 文件 块 来 存储 1MB 的 文件 ， 实 际 上 存储 这 个 文件 只 需 
要 1MB 人 磁盘 空间 ， 而 不 是 128MB。 


Hadoop 归 档 文件 是 通过 archive 命 令 工 具 根 据 文件 集合 创建 的 。 
为 这 个 工具 需要 运行 一 个 MapReduce 来 并 行 处 理 输入 文件 ， 所 以 需要 
一 个 运行 MapReduce 的 集群 。 而 HDFS 中 有 些 文件 是 需要 进行 归档 的 ， 
例如 : 


hadoop fs-lsr/user/ubuntu/In/ 

-rw-r--r--3 ubuntu\ubuntu supergroup 13 2012-03-18 20: 
15/user/ubuntu/In/hello.c.txt 

-rw-r--r--1 ubuntu\ubuntu supergroup 13 2012-03-17 15: 
13/user/ubuntu/In/hello.txt 


运行 archive 命 令 如 下 : 


hadoop archive-archiveName 
files.har/user/ubuntu/In//user/ubuntu/ 


12/03/18 20: 46: 47 
job_201010182044 0001 
12/03/18 20: 46: 48 
12/03/18 20: 47: 21 
12/03/18 20: 47: 39 
12/03/18 20: 47: 41 
job_201010182044 0001 
12/03/18 20: 47: 41 
12/03/18 20: 47: 41 
12/03/18 20: 47: 41 
tasks=1 
12/03/18 
12/03/18 
12/03/18 
12/03/18 
12/03/18 
12/03/18 
12/03/18 
12/03/18 
12/03/18 
records=0 
12/03/18 
12/03/18 
12/03/18 
records=0 
12/03/18 
12/03/18 
12/03/18 
12/03/18 
records=0 
12/03/18 
12/03/18 


20: 
20: 
20: 
20: 
20: 
20: 
20: 
20: 
20: 


47: 
AT: 
AT: 
AT: 
47: 
AT: 
47: 
AT: 
AT: 


41 
41 
41 
41 
41 
41 
41 
41 
41 


20: 
20: 
20: 


AT: 
47: 
AT: 


41 
41 
41 


20: 
20: 
20: 
20: 


47: 
47: 
47: 
47: 


41 
41 
41 
41 


20: 
20: 


AT: 
AT: 


41 
41 


在 命令 行 中 ， 第 一 个 参数 是 归档 文件 的 名 称 ， 


INFO 


INFO 
INFO 
INFO 
INFO 


INFO 
INFO 
INFO 


INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 


INFO 
INFO 
INFO 


INFO 
INFO 
INFO 
INFO 


INFO 
INFO 


mapred 


mapred. 
mapred. 
mapred. 
mapred. 


mapred. 
mapred. 
mapred. 


mapred. 
mapred. 
mapred. 
mapred. 
mapred. 
mapred. 
mapred. 
mapred. 
mapred. 


mapred. 
mapred. 
mapred. 


mapred. 
mapred. 
mapred. 
mapred. 


mapred. 
mapred. 


.JobClient: 


JobClient: 
JobClient: 
JobClient: 
JobClient: 


JobClient: 
JobClient: 
JobClient: 


JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 


JobClient: 
JobClient: 
JobClient: 


JobClient: 
JobClient: 
JobClient: 
JobClient: 


JobClient: 
JobClient: 


Running job: 


map O%reduce 0% 

map 100%reduce 0% 
map 100%reduce 100% 
Job complete: 


Counters: 17 
Job Counters 
Launched reduce 


Launched map tasks=1 
FileSystemCounters 
FILE_BYTES_READ=540 
HDFS_BYTES_READ=531 
FILE_BYTES_WRITTEN=870 
HDFS_BYTES_WRITTEN=305 
Map-Reduce Framework 
Reduce input groups=6 
Combine output 


Map input records=6 
Reduce shuffle bytes=0 
Reduce output 


Spilled Records=12 
Map output bytes=280 
Map input bytes=399 
Combine input 


Map output records=6 
Reduce input records=6 


这 里 是 file.har 文 


件 ， 第 二 个 参数 是 要 归档 的 文件 源 ， 这 里 我 们 只 归档 一 个 源 文件 夹 ， 
即 HDFS 下 /muservubuntuwIn/ 中 的 文件 ， 但 事实 上 ，archive 命 令 可 以 接收 


多 个 文件 源 ; 最 后 一 个 参数 ， 即 本 例 中 的 /aserubuntu 是 HAR 文 件 的 输 
出 目录 。 可 以 看 到 这 个 命令 的 执行 流程 为 一 个 MapRedeuce 任 务 。 


下 面 我 们 来 看 这 个 归档 文件 是 怎么 创建 的 : 


hadoop fs-ls/user/ubuntu/In//user/ubuntu/ 

Found 2 items 

-rw-r--r--3 ubuntu\ubuntu supergroup 13 2012-03-18 20: 
15/user/ubuntu/In/hello.c.txt 

-rw-r--r--1 ubuntu\ubuntu supergroup 13 2012-03-17 15: 
13/user/ubuntu/In/hello.txt 

Found 3 items 

drwxr-xr-x-ubuntu\ubuntu supergroup 0 2012-03-18 20: 
15/user/ubuntu/In 

drwxr-xr-x-ubuntu\ubuntu supergroup 0 2012-03-18 18: 
53/user/ubuntu/ubuntu 

drwxr-xr-x-ubuntu\ubuntu supergroup 0 2012-03-18 20: 
47/user/ubuntu/files.har 


这 个 目录 列表 展示 了 一 个 HAR 文 件 的 组 成 ， 两 个 索引 文件 和 部 分 
文件 (part file) 的 集合 。 这 里 的 部 分 文件 包含 已 经 连接 在 一 起 的 大 量 
源 文件 的 内 容 ， 同 时 索引 文件 可 以 检索 部 分 文件 中 的 归档 文件 ， 包 括 
它 的 长 度 、 起 始 位 置 等 。 但 是 ， 这 些 细 市 在 使 用 HAR URI 模 式 访问 
HAR 文 件 时 多 数 都 是 隐藏 的 。 HAR 文 件 系统 是 建立 在 底层 文件 系统 
的 〈 此 处 是 HDFS) ， 以 下 命令 以 递归 的 方式 列 出 了 归档 文件 中 的 文 
件 : 


hadoop fs-lsr har: ///user/ubuntu/files.har 

drw-r--r---ubuntu\ubuntu supergroup 0 2012-03-18 20: 
47/user/ubuntu/files.har/user 

drw-r--r---ubuntu\ubuntu supergroup 0 2012-03-18 20: 
47/user/ubuntu/files.har/ 

user/ubuntu 


drw-r--r---ubuntu\ubuntu supergroup 0 2012-03-18 20: 
47/user/ubuntu/files.har/ 

user/ubuntu/In 

-rw-r--r--10 ubuntu\ubuntu supergroup 13 2012-03-18 20: 
47/user/ubuntu/files. 

har/user/ubuntu/In/hello.c.txt 

-rw-r--r--10 ubuntu\ubuntu supergroup 13 2012-03-18 20: 
47/user/ubuntu/files. 

har/user/ubuntu/In/hello.txt 


如 采 HAR 文 件 所 在 的 文件 系统 是 默认 的 文件 系统 ， 那 么 这 里 的 内 
AMAR Hi BWA ote, 但是， 如 采 你 想 要 在 其 他 文件 系统 中 使 用 HAR 
文件 ， 就 需要 使 用 不 同 格式 的 URI 路 径 。 下 面 两 个 命令 即 具 有 相同 的 
作用 : 


hadoop fs-lsr har: ///user/ubuntu/files.har/my/files/dir 
hadoop fs-lsr har: //hdfs-localhost: 
8020/user/ubuntu/files.har/my/files/dir 


第 二 个 命令 ， 它 仍然 使 用 HAR 模 式 描述 一 个 HAR 文 件 系 统 ， 但 是 
使 用 HDFS 作 为 底层 的 文件 系统 模式 ，HAR 模 式 之 后 紧 跟 一 个 HDFS 系 
REV AGS e HARM IF ARS AHAR URI 转 换 为 底层 的 文件 系 
统 访问 URI。 在 本 例 中 即 为 hdfs: //ocalhost: 
8020/user/ubuntuw/archive/files.har， 文 件 的 剩余 部 分 路 径 即 为 文件 归档 
部 分 的 路 人 径 /my/files/dir ° 


想 要 删除 HAR 文 件 ， 需 要 使 用 删除 的 递归 格式 ， 这 是 因为 的 层 的 
文件 系统 HAR 文 件 是 一 个 目录 ， 删 除 命 令 为 hadoop fs- 


rmr/user/ubuntu/files.har ° 


对 于 HAR 文 件 我 们 还 需要 了 解 它 的 一 些 不 足 。 当 创建 一 个 归档 文 
件 时 ， 还 会 创建 原始 文件 的 一 个 副本 ， 这 样 束 需 要 和 额外 的 人 磁盘 空间 
(尽管 归档 完成 后 会 删除 原始 文件 ) 。 而 且 当 前 还 没有 针对 归档 文件 
的 压缩 方法 ， 只 能 对 写 入 归档 文件 的 原始 文件 进行 压缩 。 归档 文件 一 
旦 创建 瑟 不 能 改变 ， 要 增加 或 者 删除 文件 ， 束 要 重新 创建 。 事 实 上 ， 
这 对 于 那些 写 后 不 能 更 改 的 文件 不 构成 问题 ， 因 为 可 以 按 日 或 者 按 周 
进行 定期 成 批 归 档 。 


如 前 所 述 ，HAR 文 件 可 以 作为 MapReduce 的 一 个 输入 文件 ， 然 
而 ， 没 有 一 个 基于 归档 的 InputFormat 可 以 将 多 个 文件 打包 到 一 个 单一 
的 MapReduce 中 去 。 所 以 ， 即 使 是 HAR 文 件 ， 处 理 小 的 文件 时 效率 仍 
然 不 高 。 


其 他 相关 命令 还 包括 以 下 这 些 : 
NameNode-format: 格式 化 DFS 文 件 系统 
secondaryNameNode: 运行 DFS 的 SecondaryNameNode 进 程 
NameNode: 运行 DFS 的 NameNode 进 程 
DataNode: 运行 DFS 的 DataNode 进 程 
dfsadmin: 运行 DFS 的 管理 客户 端 
mradmin: 运行 MapReduce 的 管理 客户 端 
fsck: 运行 HDFS 的 检测 进程 
fs: 运行 一 个 文件 系统 工 
balancer: 运行 一 个 文件 系统 平衡 进程 


jobtracker: 运行 一 个 JobTracker 进 程 


pipes: 运行 一 个 Pipes 任 务 


tasktracker: 运行 一 个 TaskTracker 进 程 
job: 管理 运行 中 的 MapReduce 任 务 
queue: 获得 运行 中 的 MapReduce 队 列 的 信息 


version: 打印 版 本 号 


jar<jar>: 运行 一 个 JAR 文 件 


daemonlog: 读 取 /设置 守护 进程 的 日 志 记 录 级 别 


相信 大 家 已 经 对 这 些 命令 中 的 一 部 分 很 熟悉 了 ， 比 如 在 命令 行 


端 中 ，jar 是 用 来 运行 Java 程 序 的 ，version 命 令 可 以 查看 Hadoop 的 当前 


版 本 ， 或 者 在 安装 时 必须 运行 的 NameNode-format 命 令 。 在 这 一 小 


， 我 们 介绍 的 是 与 HDFS 有 关 的 命令 。 其 中 与 HDFS 相 关 的 命令 有 如 


下 几 个 : secondaryNameNode ` NameNode ` DataNode ` dfsadmin ` 


fsck ` fs ` balancer ` distcp#larchieves ° 
它们 的 统一 格式 如 下 : 


bin/hadoop command[genericOptions ][commandOptions ] 


其 中 只 有 dfsadmin、fsck、fs 具 有 选项 genericOptions 及 


commandOptions， 其 余 的 命令 只 有 commandOptions。 下 面 先 介 


召 只 有 


commandOptions 选 项 的 命令 。 


distcp。Distcp 命 令 用 于 DistCp 〈 即 Dist 分 布 式 ，Cp 复 制 ) 分 布 式 
复制 。 用 于 在 集群 内 部 及 集群 之 间 复 制 数据 。 


archives。archives 命 令 是 Hadoop 定 义 的 档案 格式 。archive 对 应 一 
个 文件 系统 ， 它 的 扩展 名 是 .har， 包 含 元 数据 及 数据 文件 。 


这 两 个 命令 在 前 文中 已 有 介绍 ， 这 里 殉 不 再 资 述 了 。 


DataNode。DataNode 命 令 要 简单 一 些 。 你 可 以 使 用 如 下 命令 将 
Hadoop 回 深 到 前 一 个 版 本 ， 它 的 用 法 如 下 : 


hadoop DataNode[-rollback] 


NameNode。nameNode 命 令 稍稍 复杂 一 些 ， 它 的 用 法 如 下 : 


hadoop nameNode 

[-format]// 格 式 化 NameNode 

[-upgrade]// 在 Hadoop 升 级 后 ， 应 该 使 用 这 个 命令 启动 NameNode 
[-rollback]// 使 用 NameNode 回 深 前 一 个 版 本 
[-finalize]// 删 除 文件 系统 的 前 一 个 状态 ， 这 会 导致 系统 不 能 回 深 到 前 一 个 状态 
[-importCheckpoint]// 复 制备 份 checkpoint 的 状态 到 当前 checkpoint 


SecondaryNameNode。secondaryNameNode 的 命令 用 法 如 下 : 


hadoop secondaryNameNode 

[-checkpoint[force] ] 

// 当 edit1og 超 过 规定 大 小 (默认 64MB) 时 ， 启 动 检查 secondaryNameNode 的 
checkpoint 过 程 ; 如 果 启 用 force 选 项 ， 则 强制 执行 checkpoint 过 程 


[-geteditsize] 
// 在 终端 上 显示 edit1og 文 件 的 大 小 


balancer。balancer 命 令 如 解释 中 所 说 ， 用 于 分 担负 载 。 很 多 原因 
都 会 造成 数据 在 集群 内 分 布 不 均衡 ， 一 般 来 说 ， 当 集群 中 添加 新 的 
DataNode 时 ， 可 以 使 用 这 个 命令 来 进行 负载 均衡 。 其 用 法 如 下 : 


hadoop balancer 


接 下 来 的 dfsadmin、fsck、fs 这 三 个 命令 有 一 个 共同 的 选 
genericOptions， 这 个 选项 一 般 与 系统 相关 ， 其 用 法 如 下 : 


-conf<configuration file>// 指 定 配置 文件 
-D<property=value>// 指 定 某 属性 的 属性 值 
-fs<local|namenode: port>// 指 定 DataNode 及 其 端口 


dfsadmin。 在 dfsadmi 命 令 中 可 以 执行 一 些 类 似 Windows 中 高 级 用 
户 才能 执行 的 命令 ， 比 如 升级 、 回 深 等 。 其 用 法 如 下 : 


hadoop dfsadmin[GENERIC_OPTIONS] 
[-report]// 在 终端 上 显示 文件 系统 的 基本 信息 
[-safemode enter|leave|get|wait]//Hadoop 的 安全 模式 及 相关 维护 ， 在 安全 
模式 中 系统 是 只 读 的 ， 数 据 块 也 不 可 以 删除 或 复制 
[-refreshNodes][-finalizeUpgrade]// 重 新 读 取 hosts 和 exclude 文 件 ， 将 新 
的 被 允许 加 入 到 集群 中 的 DataNode 连 入 ， 同 时 断 与 那些 从 集群 出 去 的 DataNode 的 连接 
[-upgradeProgress status|details|force]// 获 得 当前 系统 的 升级 状态 、 
节 ， 或 者 强制 执行 升级 过 程 
[-metasave filename]// 保 存 NameNode 的 主要 数据 结构 到 指定 目录 下 
[-setQuota<quota> <dirname>....<dirname>]// 为 每 个 目录 设 定 配 额 
[-clrQuota<dirname>.....<dirname> ]// 清 除 这 些 目 录 的 配额 
[-setSpaceQuota<quota><dirname>.…<dirname>]// 为 每 个 目录 设置 配额 


空间 


[-cLrSpaceQuota<dirname>.…<dirname>]// 清 除 这 些 目录 的 配额 空间 
[-help[cmd]]// 显 示 命 令 的 帮助 信息 


fsck。fsck 在 HDFS 中 被 用 来 检查 系统 中 的 不 一 致 情况 。 比 如 某 文 
件 只 有 日 录 ， 但 数据 块 已 经 丢失 或 副本 数 日 不 足 。 与 Linux 不 同 ， 这 个 
命令 只 用 于 检测 ， 不 能 进行 修复 。 其 使 用 方法 如 下 : 


hadoop fsck[GENERIC OPTIONS] <path>[-move|-delete|-openforwrite] 
[-files 

[-blocks[-locations|-racks]]] 

//<path> 检 查 的 起 始 目录 

//-move 移 动 受 损 文件 到 /lost+found 

//-delete 删 除 受 损 文件 

//- openforwrite 在 终端 上 显示 个 写 打 的 文件 

//-files 在 终端 上 显示 正 被 检查 的 文件 

//-blocks 在 终端 上 显示 块 信息 

//-location 在 终端 上 显示 每 个 块 的 位 置 

//-rack 显 示 DataNode 的 网 络 拓扑 结构 图 


fs: fs 可 以 说 是 HDFS 最 渭 用 的 命令 ， 这 是 一 个 高 度 类 似 Linux 文 件 
系统 的 命令 集 。 你 可 以 使 用 这 些 命 令 查 看 HDFS 上 的 目录 结构 文件 、 
上 传 和 下 载 文件 、 创 建文 件 夹 、 复 制 文 件 等 。 其 使 用 方法 如 下 : 


hadoop fs[genericOptions ] 
[-ls<path> ]// 显 示 目 标 路 径 当 前 目录 下 的 所 有 文件 
[-lsr<path>]// 递 归 显 示 目 标 路 径 下 的 所 有 目录 及 文件 (深度 优先 ) 
a <path>]// 以 字 节 为 单位 显示 目录 中 所 有 文件 的 大 小 ， 或 该 文件 的 大 小 (如果 目 
水 六 {a 
[-dus<path>]// 以 字 节 为 单位 显示 目标 文件 大 小 (用 于 查看 文件 夹 大 小 ) 
[-count[-q] <path>]// 将 目录 的 大 小 、 包 含 文件 (包括 文件 ) 个 数 的 信息 输出 到 
屏幕 (标准 stdout) 
vo mv<src><dst>]// 把 文件 或 目录 移动 到 目标 路 径 ， 这 个 命令 允许 同时 移动 多 个 
文件 ， 但 是 只 允许 移动 到 一 个 目标 路 径 中 ， 参数 中 的 最 后 一 个 文件 夹 即 为 目标 路 径 
[-cp<src><dst>]// 复 制 文件 或 目录 到 目标 路 径 ， 这 个 命令 允许 同时 复制 多 个 文 
件 ， 如 果 复 制 多 个 文件 ， 目 标 路 径 必 须 是 文件 夹 
[-rm[-skipTrash]<path>]// 删 除 文件 ， 这 个 命令 不 能 删除 文件 夹 
[-rmr[-skipTrash] <path> ] /7 删除 文件 夹 及 其 下 的 所 有 文件 
[-expunge] 
[-put<1localsrc>.…<dst>]// 从 本 地 文件 系统 上 传 文件 到 HDFS 中 


[-copyFromLocal<localsrc>.....<dst>]//SputtH# F] 
[-moveFromLocal<1localsrc>.…<dst>]// 与 put 相 同 ， 但 是 文件 上 传 之 后 会 从 
本 地 文件 系统 中 移 除 
[-get[-ignorecrc][-crc]<src> <localdst > ]// 复 制 文件 到 本 地 文件 系统 。 
这 个 命令 可 以 选择 是 否 忽视 校 验 和 ， 和 忽视 校 验 和 下 载 主要 用 于 挽救 那些 已 经 发 生 错 误 的 文件 
[-getmerge<src><localdst > [addn1]]// 将 源 目 录 中 的 所 有 文件 进行 排序 并 写 
入 目标 文件 中 ， 文 件 之 间 以 换行 符 分 隔 
[-cat<src>]// 在 终端 显示 (标准 输出 stdout) 文件 中 的 内 容 ， 类 似 Linux 系 统 
的 cat 
[-text<src>] 
[-copyToLocal[-ignorecrc][-crc]<src><localdst>]// 与 get 相 同 
[-moveToLocal[-crc]<src><localdst>] 
[-mkdir<path>]// 创 建文 件 夹 
[-setrep[-R][-w] <rep> <path/file>]// 改 变 一 个 文件 的 副本 个 数 。 参 数 -R 
可 以 递归 地 对 该 目录 下 的 所 有 文件 做 统一 操作 
[- touchz <path> ]//2(ULinuxtJtouch, 创建 一 个 空 文件 
[-test-[ezd] <path> ]// 将 源 文件 输出 为 文本 格式 显示 到 终端 上 ， 通 过 这 个 命令 可 
以 查看 TextRecordInputStream (SequenceFile 等 ) 或 zip 文 件 
[-stat[format]<path>]// 以 指定 格式 返回 路 径 的 信息 
[-tail[-f] <file>]// 在 终端 上 显示 (标注 输出 stdout) 文件 的 最 后 1kb 内 容 。- 
f 选 项 的 行为 与 
Linux 中 一 致 ， 会 持续 检测 新 添加 到 文件 中 的 内 容 ， 这 在 查看 日 志文 件 时 会 显得 非常 方 
便 
[-chmod[-R]<MODE[, MODE]......] OCTALMODE > PATH.….]/V 改 变 文 件 的 权限 ， 只 有 


文件 的 所 有 者 或 是 超级 用 户 才能 使 用 这 个 命令 。 -R 可 以 递归 地 改变 文件 夹 内 的 所 有 文件 的 权 


限 
[-chown[-R][OWNER][: [GROUP]]PATH.…]VV 改 变 文 件 的 拥有 者 ，-R 可 以 递归 地 
改变 文件 夹 内 所 有 文件 的 拥有 者 。 同 样 ， 这 个 命令 只 有 超级 用 户 才能 使 用 
[-chgrp[-R]GROUP PATH...... ]// 改 变 文件 所 属 的 组 ， -R 可 以 递归 地 改变 文件 夹 内 所 
有 文件 所 属 的 组 。 这 个 命令 必须 是 超级 用 户 才能 使 用 
[-help[cmd]]// 这 是 命令 的 帮助 信息 


J- 


在 这 些 命令 中 ， 参 数 <path> 的 完整 格式 是 hdfs: //NameNodelP: 
porVy， 比 如 你 的 NameNode 地 址 是 192.168.0.1， 端 口 是 9000， 那 么 ， 如 
果 想 访问 HDFS 上 路 径 为 /user/root/hello 的 文件 ， 则 需要 输入 的 地 址 是 
hdfs: //192.168.0.1: 9000/user/root/hello。 在 Hadoop 中 ， 如 果 参 数 < 
path> 没 有 NameNodeIP， 那 么 会 默认 按照 core-site.xml 中 属性 


fs.default.name 的 设置 ， 附 加 “Wuser/ 你 的 用 户 名 ”作为 路 径 ， 这 是 为 了 方 
便 使 用 以 及 对 不 同 用 户 进 行 区 分 。 


9.8 WebHDFS 


本 章 前 面 的 部 分 讲解 了 HDFS 相 关 的 内 容 ， 重 点 集中 在 如 何 使 用 
shell 下 Hadoop 的 命令 和 HDFS 的 Java API 来 管理 HDFS。 这 一 小 和 将 讲 
解 Hadoop 1.0 版 本 中 新 增加 的 WebHDFS， 即 通过 Web 命 令 来 管理 


HDES ° 
9.8.1 WebHDFS 的 配置 


WebHDFS 的 原理 是 使 用 cun 命 令 向 指定 的 Hadoop 集 群 对 外 接口 发 
送 页 面 请 求 ，Hadoop 集 群 的 网 络 接口 接收 到 请 求 之 后 ， 会 将 命令 中 的 
URL 解 析 成 HDFS 上 的 对 应 文件 或 者 文件 夹 ，URL 后 面 的 参数 解析 成 
命令 、 用 户 、 权 限 、 缓 存 大 小 等 参数 。 待 完成 相应 的 操作 之 后 ， 将 结 
果 发 还 给 执行 cu 命令 的 客户 端 ， 并 显示 执行 信息 或 者 错误 信息 。 那 
么 要 使 用 WebHDFS， 首 先 就 必须 在 期 望 使 用 WebHDFS 的 客户 端 安 装 
curl 软 件 包 。 在 Ubuntu 下 执行 简单 的 apt-get install curl 命 令 ，apt 包 管理 
器 就 会 自动 从 系统 指定 的 源 地 址 下 载 cunl 并 安装 。 待 安装 结束 之 后 ， 
在 终端 输入 curl-V 可 以 查看 是 否 安装 成 功 。 


在 客户 端 安 装 好 curl 软 件 包 之 后 ， 还 需要 修改 Hadoop 集 群 的 配 
置 ， 使 其 开放 WebHDFS 服 务 。 具 体操 作 是 : 停止 Hadoop 所 有 服务 之 


后 ， 配 置 hdfs-site.xml 中 的 dfs.webhdfs.enabled， 
dfs.web.authentication.kerberos.principal, 
dfs.web.authentication.kerberos.keytab 这 三 个 属性 为 适当 的 值 ， 其 中 第 
一 个 属性 值 应 配置 为 tue， 代 表 启 动 webHDFS 服 务 ， 后 面 两 个 代表 使 
用 webHDFS 时 采用 的 用 户 认证 方法 ， 这 里 为 了 简单 起 见 并 没有 设置 ， 
后 面 的 命令 也 都 采用 Hadoop 的 启动 用 户 Ubuntu 来 发 送 命令 。 配 置 结 束 
之 后 再 启动 Hadoop 所 有 的 服务 ， 这 样 就 可 以 使 用 WebHDFS 来 管理 
Hadoop 集 群 了 。 


9.8.2 WebHDFS S 
上 一 小 节 讲 了 如 何 配 置 WebHDFS， 这 一 小 节 我 们 将 详细 介绍 
WebHDFS 命 令 的 组 织 方 式 和 具体 的 命令 。 
1.WebHDFS 命 令 一 般 形式 


在 这 一 部 分 的 开始 束 讲 了 WebHDFS 实 际 上 是 用 curl 命 令 来 发 送 管 
理 的 命令 ， 所 以 WebHDFS 的 命令 组 织 和 curl 命 令 组 织 类 似 。 一 般 为 下 
面 的 格式 : 


curl[-i/-X/-u/-T][PUT]"http: //<HOST>: <PORT>/webhdfs/v1/< 
PATH> ?[ user .name=<user > &]&op=<operation> & [doas=<user > ]....." 


在 这 个 命令 里 面 ， 引 号 前 面 的 部 分 是 curl 目 己 的 参数 ， 需 要 大 家 
自行 了 解 ， 后 面 网 页 形式 的 内 容 代 表 着 操作 的 指令 、 参 数 和 路 径 。 其 
中 http: /<HOST>: <PORT>“。 代 表 需 要 将 命令 发 送 的 地 址 和 端 
口 ， 也 就 是 Hadoop 集 群 服务 器 的 卫 地 址 和 HDFS 端 口 (默认 是 
50070) 。 在 这 个 地 址 之 后 的 部 分 /webhdfs/v1/<PATH> 代表 着 需要 操 
作 的 远程 HDFS 集 群 上 的 路 径 ， 比 如 /webhdfs/v1l/user/ubuntu/input， 整 
代表 着 HDFS 上 /user/ubuntu/input 这 个 目录 。3 引 号 中 再 往 后 的 内 容 束 是 
操作 的 指令 和 参数 了 ， 其 中 最 重要 的 是 op 参数 ， 代 表 着 具体 的 操作 指 
令 ， 接 下 来 的 内 容 我 们 会 详细 讲解 。 


2. 文 件 和 路 径 操作 


创建 文件 并 写 入 内 容 : 


CUrl-i-XxPUTIhttp:/L<HOST>:<PORT>ebhdf 
s/v 1/<P A T H>?0 p=C RE AT E overwrite=<true|false>][& 
blocksize=<LONG> ][&replication=< SHORT > ] 

[ &permission=<OCTAL> ][&buffersize=<INT> ]" 


使 用 上 述 命 令 之 后 ， 会 返回 一 个 location， 它 包括 了 已 创建 文件 所 
在 的 DataNode 地 址 及 创建 路 径 。 下 面 就 可 以 将 文件 内 容 发 送 到 所 显示 
DataNode 对 应 路 径 下 的 文件 内 ， 命 令 如 下 : 


curl-i-X PUT-T<LOCAL_FILE>"http: //<DAtANODE>: <PORT 
> /webhdfs/v1i/ < PATH > ?0p=CREATE......" 


文件 追加 内 容 ， 首 先 使 用 下 面 的 命令 获取 竺 追加 内 容 文件 所 在 的 
地 址 : 


curl-i-X POST"http: //<HOST>: <PORT>/webhdfs/v1i/<PATH>? 
Op=APPEND[ &buffersize=<INT> ]" 


再 结合 返回 内 容 的 location 信 息 ， 追 加 内 容 ， 命 令 如 下 : 


curl-i-X POST-T<LOCAL_FILE>"http: //<DAtANODE>: <PORT 
> /webhdfs/v1i/ < PATH > ?0p=APPEND......" 


打开 并 读 取 文件 内 容 ， 使 用 下 面 的 命令 打开 远程 HDFS 上 的 文件 
并 读 取 内 容 : 


curl-i-L"http: //<HOST>: <PORT>/webhdfs/v1/<PATH> ?0p=OPEN 
[Soffset=<LONG> ][&length=<LONG> ][&buffersize=<INT>]" 


需要 注意 的 是 ， 这 个 命令 首先 会 返回 文件 所 在 的 location 信 息 ， 然 
后 打印 文件 的 具体 内 容 。 


创建 文件 夹 : 


curl-i-X PUT"http: //<HOST>: <PORT>/<PATH>?0p=MKDIRS[ & 
permission=<OCTAL> ]" 


重 命名 文件 夹 或 文件 : 


curl-i-X PUT"<HOST>: <PORT>/webhdfs/v1/<PATH>?0p=RENAME & 
destination=<PATH>" 


删除 文件 夹 或 者 文件 : 


curl-i-X DELETE"http: //<host>: <port>/webhdfs/v1i/<path>? 
Op=DELETE 
[S&recursive=<true|false>]" 


查看 文件 夹 或 文件 信息 : 


curl-i"http: /7/<HOST>: <PORT>/webhdfs/v1i/ <PATH> ? 
Op=GETFILESTATUS" 


列举 文件 夹 内 容 : 


curl-i"http: /7/<HOST>: <PORT>/webhdfs/v1i/ <PATH>? 
Op=LISTSTATUS" 


其 他 文件 系统 操作 


获取 文件 夹 统计 信息 : 


curl-i"http: //<HOST>: <PORT>/webhdfs/v1i/ <PATH> ? 
Op=GETCONTENTSUMMARY" 


X 个 命令 主要 返回 一 下 文件 夹 信息 : 文件 夹 个 数 、 文 件 个 数 、 忆 


这 


字 长 和 总 大 小 等 。 
获取 文件 校 验 和 |: 


curl-i"http: //<HOST>: <PORT>/webhdfs/v1i/ <PATH> ? 
oOp=GETFILECHECKSUM" 


主要 返回 校 验 算法 、 校 验 字 符 串 和 字符 串 长 度 。 
获取 当前 web 用 户 的 主 目录 : 


curl-i"http: //<HOST>: <PORT>/webhdfs/v1/?0p=GETHOMEDIRECTORY" 


设置 权限 : 


curl-i-X PUT"http: //<HOST>: <PORT>/webhdfs/v1/<PATH> ? 
Op=SETPERMISSION 
[ &permission=<OCTAL> ]" 


设置 文件 夹 或 文件 属 主 属性 


curl-i-X PUT"http: //<HOST>: <PORT>/webhdfs/v1i/<PATH> ? 
Op=SETOWNER 
[ S& owner=<USER> ][&group=< GROUP > ]" 


curl-i-X PUT"http: //<HOST>: <PORT>/webhdfs/v1/<PATH> ? 
Op=SETREPLICATION 
[ &replication=<SHORT> ]" 


4. 和 常见 错误 


在 使 用 WebHDFS 时 经 常会 抛 出 一 些 异 前 ， 但 是 从 异 稼 的 信息 大 体 
都 能 分 析出 问题 所 在 ， 下 面 介 绍 几 种 管见 的 异 第 和 分 析 。 


(1) Tllegal Argument Exception 
这 种 异常 出 现 的 返回 信息 如 下 : 


HTTP/1.1 400 Bad Request 
Content-Type: application/json 
Transfer-Encoding: chunked 


"RemoteException": 


"exception": "IllegalArgumentException", 
"jJavaClassName": "java.lang.IllegalArgumentException", 


"message": "Invalid value for webhdfs 
parameter\"permission\": .... i 

} 

} 


MEE A E H R E HENLE, A m H F 
细 检 查 目 己 的 参数 是 否 有 输入 错误 或 拼写 错误 。 


(2) Security Exception 


这 种 异 肖 出 现 的 返回 信息 如 下 : 


HTTP/1.1 401 Unauthorized 
Content-Type: application/json 
Transfer-Encoding: chunked 


"RemoteException": 

{ 

"exception": "SecurityException", 

"jJavaClassName": "java.lang.SecurityException", 
"message": "Failed to obtain user group information. ...... x 
} 

} 


出 现 这 种 异常 的 原因 是 提交 命令 的 用 户 应 通过 认证 ， 这 束 需 要 用 
户 先 提交 认证 信息 S 


(3) File Not Found Exception 


这 种 异 弟 出 现 的 返回 信息 如 下 : 


HTTP/1.1 404 Not Found 
Content-Type: application/json 
Transfer-Encoding: chunked 


"RemoteException": 

{ 

"exception": "FileNotFoundException", 
"javaClassName": "java.io.FileNotFoundException", 
"message": "File does not exist: /foo/a.patch" 


出 现 这 种 异常 的 原因 征 找 不 到 指定 的 目 孙 或 者 文件 ， 这 需要 用 户 
确认 目 己 命令 中 的 路 径 和 文件 。 


99 本章 小 结 


在 本 章 中 ， 深 入 介绍 了 Hadoop 中 一 个 关键 的 分 布 式 文件 系统 
HDFS。HDFS 是 Hadoop 的 一 个 核心 子 项 目 ， 是 Hadoop 进 行 大 数据 存储 
管理 的 基础 ， 它 支持 MapReduce 分 布 式 计算 。 


首先 ， 对 Hadoop 的 文件 系统 进行 了 总 体 的 概括 ， 随 后 针对 HDFS 
进行 了 简单 介绍 ， 分 析 了 它 的 研究 背景 和 设计 基础 。 有 了 这 样 的 背景 
知识 ， 就 可 以 在 随后 的 章节 中 更 好 地 理解 HDFS 的 功能 和 实现 。 本 章 
还 从 结构 上 对 HDFS 进 行 了 描述 ， 给 出 了 HDFS 的 相关 概念 ， 包 括 块 、 
NameNode、DataNode 等 。 通 过 对 HDFS 概 念 的 和 学习， 还 可 以 了 解 
HDFS 的 体系 结构 。 


其 次 ， 在 掌握 基本 概念 的 基础 上 ， 我 们 介绍 了 HDFS 的 基本 操作 
接口 。HDFS 为 开发 者 提供 了 丰富 的 接口 ， 包 括 命令 行 接 口 和 各 种 方 
便 使 用 的 Java 接 口 ， 可 以 通过 Java API 对 HDFS 中 的 文件 执行 常规 的 文 
件 操 作 。 不 仅 如 此 ， 在 使 用 API 对 HDFS 文 件 系 统 进行 管理 的 基础 上 ， 
还 对 HDFS 中 文件 流 的 读 / 写 进行 了 详细 介绍 。 这 对 更 深入 地 了 解 HDFS 
有 很 大 帮助 。 


最 后 ， 本 章 对 HDFS 的 命令 进行 了 详细 讲解 ， 并 对 其 中 特有 的 
distcp 操 作 和 归档 文件 进行 了 具体 说 明 ， 理 解 了 它们 可 以 更 好 地 帮助 大 


家 了 解 Hadoop 的 文件 系统 。 


第 10 昔 ”Hadoop 的 管理 


HDFS 文 件 结构 
Hadoop 的 状态 监视 和 管理 工具 
Hadoop 集 群 的 维护 

本 章 小 结 


在 第 2 章 我 们 已 经 详细 介绍 了 如 何 安 狐 和 部 畴 Hadoop 集 群 ， 本 章 
我 们 将 具体 介绍 如 何 维护 集群 以 保证 其 正常 运行 。 盆 庸 置疑 ， 维 护 一 
个 大 型 集群 稳定 运行 是 必要 的 ， 手 段 也 是 多 样 的 。 为 了 更 清晰 地 了 解 
Hadoop 集 群 管理 的 相关 内 容 ， 本 章 主 要 从 HDFS 本 身 的 文件 结构 ， 
Hadoop 的 监控 管理 工具 以 及 集群 香 用 的 维护 功能 三 方面 进行 讲解 。 


10.1 HDFS 文 件 结构 


作为 一 名 合格 的 系统 运 维 人 员 ， 首 先 要 全 面 掌握 系统 的 文件 组 织 
目录 。 对 于 Hadoop 系 统 的 运 维 人 员 来 说 ， 束 十 要 掌握 HDFS 中 的 
NameNode、DataNode、Secondery NameNode 是 如 何在 磁盘 上 组 织 和 
存储 持久 化 数据 的 。 只 有 这 样 ， 当 遇 到 问题 时 ， 管 理 人 员 才 能 借助 系 
统 本 喘 的 文件 存储 机 制 来 快速 诊断 和 分 析 问 题 。 下 面 从 HDFS 的 几 个 
方面 来 分 别 介 


1.NameNode 的 文件 结构 
最 新 格式 化 的 NameNode 会 创建 以 下 目录 结构 : 


${dfs.name.dir}/current/VERSION 
/edits 

/fsimage 

/fstime 


其 中 ，dfs.name.dir 属 性 是 一 个 日 录 列 表 ， 是 每 个 日 好 的 镜像 。 
VERSION 文 件 是 Java 属 性 文件 ， 其 中 包含 运行 HDFS 的 版 本 信息 。 下 
面 是 一 个 典型 的 VERSION 文 件 包 含 的 内 容 : 


#Wed Mar 23 16: 03: 27 CST 2011 
namespaceID=1064465394 

cTime=0 

storageType=NAME_NODE 
layoutVersion=-18 


其 中 ，namespaceID 是 文件 系统 的 唯一 标识 符 。 在 文件 系统 第 一 次 
被 格式 化 时 便 会 创建 namespaceID。 这 个 标识 符 也 要 求 各 DataNode 节 点 
和 NameNode 保 持 一 致 。NameNode 会 使 用 此 标识 符 识别 新 的 
DataNode。DataNode 只 有 在 向 NameNode 注 册 后 才 会 获得 此 
namespaceID。cTime 属 性 标记 了 NameNode 存 储 空间 创建 的 时 间 。 对 于 
新 格式 化 的 存储 空间 ， 虽 然 这 里 的 cTime 属 性 值 为 0， 但 是 只 要 文件 系 
统 被 更 新 ， 它 就 会 更 新 到 一 个 新 的 时 间 戳 。storageType 用 于 指出 此 存 
储 目录 包含 一 个 NameNode 的 数据 结构 ， 在 DataNode 中 它 的 属性 值 为 
DATA_NODE ° 


layoutVersion 是 一 个 负 的 整数 ， 定 义 了 HDFS 持 久 数据 结构 的 版 
本 。 注 意 ， 该 版 本 号 和 Hadoop 的 发 行 版 本 号 无 天 。 每 次 HDFS 的 布局 
发 生 改 变 ， 该 版 本 号 就 会 递减 (比如 -18 版 本 号 之 后 是 -19) ， 在 这 种 
情况 下 ，HDFS 允 需要 更 新 升级 ， 因 为 如 宁 一 个 新 的 NameNode 或 
DataNode 还 处 在 旧版 本 上 ， 那 么 系统 就 无 法 正常 运行 ， 各 节点 的 版 本 
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NameNode 的 存储 目录 包含 edits、fsimage、fstime 三 个 文件 。 它 们 
都 是 二 进 制 的 文件 ， 可 以 通过 HadoopWritable 对 象 进 行 序列 化 。 下 面 
将 深入 介绍 NameNode 的 工作 原理 ， 以 便 使 大 家 更 清晰 地 理解 这 三 个 
文件 的 作用 。 


2. 编 辑 日 志 (edit log) 及 文件 系统 映像 filesystem image) 


当 客户 端 执 行 写 操作 时 ，NameNode 会 先 在 编辑 日 志 中 写 下 记 
孙 ， 并 在 内 存 中 保存 一 个 文件 系统 元 数据 ， 元 数据 会 在 编辑 日 志 有 上 所 
改动 后 进行 更 新 。 内 存 中 的 元 数据 用 来 提供 读数 据 请 求 服务 。 


编辑 日 志 会 在 每 次 成 功 操作 之 后 、 成 功 代 码 尚 未 返回 给 客 尸 端 之 
前 进行 刷新 和 同步 。 对 于 要 写 入 多 个 目录 的 操作 ， 写 入 流 要 刷新 和 同 
步 到 所 有 的 副本 ， 这 殊 保 证 了 操作 不 会 因 故 障 而 丢失 数据 。 


fsimage 文 件 古 文件 系统 元 数据 的 持久 性 检查 点 。 和 编辑 日 志 不 
同 ， 它 不 会 在 每 个 文件 系统 的 写 操作 后 都 进行 更 新 ， 因 为 写 出 fsimage 
文件 会 非常 慢 (fsimage 可 能 增长 到 GB 大 小 ) 。 这 种 设计 并 不 会 影响 
系统 的 恢复 力 ， 因 为 如 果 NameNode 失 败 ， 那 么 元 数据 的 最 新 状态 可 
以 通过 将 从 磁盘 中 读 出 的 fsimage 文 件 加 载 到 内 存 中 来 进行 重建 恢复 ， 
然后 重新 执行 编辑 日 志 中 的 操作 。 事 实 上 ， 这 也 正 是 NameNode 局 动 
时 要 做 的 事情 。 一 个 fsimage 文 件 包含 以 序列 化 格式 存储 的 文件 系统 
杂 和 文件 inodes。 每 个 inodes 表 示 一 个 文件 或 目录 的 元 数据 信息 ， 以 及 
文件 的 副本 数 、 修 改 和 访问 时 间 等 信息 。 


正如 上 面 所 描述 的 ，Hadoop 文 件 系统 会 出 现 编辑 日 志 不 断 增 长 的 
情况 。 尽 管 在 NameNode 运 行 期 间 不 会 对 系统 造成 影响 ， 但 是 ， 如 果 
NameNode 重 新 启动 ， 它 将 会 花费 很 长 时 间 来 运行 编辑 日 志 中 的 每 个 
操作 。 在 此 期 间 ( 即 安全 模式 时 间 ) ， 文 件 系统 还 是 不 可 用 的 ， 通 党 
来 说 这 是 不 符合 应 用 需求 的 。 


为 了 解决 这 个 问题 ，Hadoop 在 NameNode 之 外 的 节点 上 运行 一 个 
Secondary NameNode 进 程 ， 它 的 任务 就 是 为 原 NameNode 内 存 中 的 文 
件 系统 元 数据 产生 检查 点 。 其 实 Secondary NameNode 是 一 个 辅助 
NameNode 处 理 fsimage 和 编辑 日 志 的 节点 ， 它 从 NameNode 中 复制 
fsimage 和 编辑 日 志 到 临时 目录 并 定期 合并 生成 一 个 新 的 fsimage， 随 后 
它 会 将 新 的 fsimage 上 传 到 NameNode， 这 样 ，NameNode 便 可 更 新 
fsimage 并 删除 原来 的 编辑 日 志 。 下 面 我 们 参照 图 10-1 对 检查 点 处 理 过 
程 进 行 描述 。 


1) Secondary NameNode 首 先 请 求 原 NameNode 进 行 edits 的 滚动 ， 
这 样 狐 的 编辑 操作 就 能 够 进入 一 个 新 的 文件 中 了 。 


2) Secondary NameNode 通 过 HTTP 方 式 读 取 原 NameNode 中 的 


fsimage Xedits ° 


3) Secondary NameNode 读 取 fsimage 到 内 存 中 ， 然 后 执行 edits 中 
的 每 个 操作 ， 并 创建 一 个 新 的 统一 的 fsimage 文 件 。 


4) Secondary NameNode (通过 HTTP 方 式 ) 将 新 的 fsimage 发 送 到 


原 NameNode。 


5) 原 NameNode 用 新 的 fsimage 替 换 旧 的 fsimage， 旧 的 edits 文 件 通 
过 步骤 1) 中 的 edits 进 行 蔡 换 。 同 时 系统 会 更 新 fsimage 文 件 到 记录 检 
查 点 记录 的 上 时间。 
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图 10-1 检查 点 处 理 过 程 


在 这 个 过 程 结 束 后 ，NameNode 束 有 ea 
的 edits 文 件 。 事 实 上 ， 对 于 NameNode 在 安全 模式 下 的 这 种 情况 ， 
员 可 以 通过 以 下 命令 运行 这 个 过 程 : 


hadoop dfsadmin-saveNamespace 


这 个 过 程 清晰 地 表明 了 Secondary NameNode Ai Fil RZ NameNode 
一 样 的 内 存 需求 的 原因 一 要 把 fsimage 加 载 到 内 存 中 ， 因 此 Secondary 
NameNode 在 集群 中 也 需要 有 专用 机 需 。 


有 关 检 查 点 的 时 间 表 由 两 个 配置 参数 决定 。Secondary NameNode 
每 小 时 会 插入 一 个 检查 点 (fs.chec-kpoint.period， 以 秒 为 单位 ) ， 如 果 
编辑 日 志 达 到 64MB (fs.checkpoint.size, LATTA RAL) ， 则 间隔 时 


间 更 短 ， 每 隔 5 分 钟 会 检查 一 次 。 


3.Secondary NameNode 的 日 录 结 构 


Secondary NameNode 在 每 次 处 理 过 程 结束 后 都 有 一 个 检查 点 。 这 
个 检查 点 可 以 在 一 个 子 目 隶 /previous.checkpoint 中 找到 ， 可 以 作为 
NameNode 的 元 数据 备份 源 ， 目 录 如 下 : 


${fs.checkpoint.dir}/current/VERSION 
/edits 

/fsimage 

/fstime 

/previous.checkpoint/VERSION 

/edits 

/fsimage 

/fstime 


以 上 这 个 目录 和 Secondary NameNode 的 /current 目 孙 结 构 是 完全 相 
同 的 。 这 样 设计 的 目的 是 : 万 一 整个 NameNode 发 生 故 隐 ， 并 且 没 有 
用 于 恢复 的 备份 ， 甚 至 NFS 中 也 没有 备份 ， 瓯 可 以 直接 从 Secondary 


NameNode 恢 复 。 上 有 具体 方式 有 两 种 ， 第 一 种 是 直接 复制 相关 的 目录 到 
新 的 NameNode 中 。 第 二 种 是 在 启动 NameNode 守 护 进 程 时 ，Secondary 
NameNode 可 以 使 用 -importCheckpoint 选 项 ， 并 作为 新 的 NameNode 继 
续 运行 任务 。-importCheckpoint 选 项 将 加 载 fs.checkpoint.dir 属 性 定义 的 
目录 中 的 最 新 检查 点 的 NameNode 数 据 ， 但 这 种 操作 只 有 在 
dfs.name.dir 所 指定 的 目录 下 没有 元 数据 的 情况 下 才 进 行 ， 这 样 就 避免 
了 重 写 之 前 元 数据 的 风险 。 


4.DataNode 的 目录 结构 


DataNode 不 需要 进行 格式 化 ， 它 会 在 启动 时 目 己 创建 存储 目录 ， 
其 中 关键 的 文件 和 目录 如 下 : 


${dfs.data.dir}/current/VERSION 
/blk_<id 1> 

/blk_<id 1> .meta 

/b1k_<id_2> 

/blk_<id 2> .meta 


/subdir0/ 
/subdiri/ 


/subdir63/ 


DataNode 的 VERSION 文 件 和 NameNode 的 非 党 类似， 内容 如 下 : 


#Tue Mar 10 21: 32: 31 GMT 2010 

namespaceID=134368441 

storageID=DS -547717739-172.16.85.1-50010-1236720751627 
cTime=0 

storageType=DATA_NODE 


layoutVersion=-18 


其 中 ，namespaceID、cTime 和 ]ayoutVersion 值 与 NameNode 中 的 值 
都 是 一 样 的 ，namaspaceID 在 第 一 次 连 授 NameNode 时 就 会 从 中 获取 。 
stroageID 相 对 于 DataNode 来 说 是 唯一 的 ， 用 于 在 NameNode 处 标识 
DataNode。storageType 将 这 个 目录 标志 为 DataNode 数 据 存储 目录 。 


DataNode 中 current 目 孙 下 的 其 他 文件 都 有 blk_refix 前 缀 ， 它 有 两 
种 类 型 : 


1) HDFS 中 的 文件 块 本 身 ， 存 储 的 是 原始 文件 内 容 ; 


2) 块 的 元 数据 信息 (使 用 .meta 后 缀 标识 ) 。 一 个 文件 块 由 存储 
的 原始 文件 字 市 组 成 ， 元 数据 文件 由 一 个 包含 版 本 和 类 型 信息 的 头 文 
件 和 一 系列 块 的 区 域 校 验 和 组 成 。 


当 目 如 中 存储 的 块 数量 增加 到 一 定 规 模 时 ，DataNode 会 创建 一 个 
新 的 目录 ， 用 于 保存 新 的 块 及 元 数据 。 当 目录 中 的 块 数量 达到 64 (可 
由 dfs.DataNode.numblocks 属 性 值 确定 ) 时 ， 便 会 新 建 一 个 子 目 录 ， 这 
样 束 会 形成 一 个 更 贺 的 文件 树 结 构 ， 避 人 免 了 由 于 存储 大 量 数 据 块 而 导 
BOA SRA, 使 检索 性 能 免 受 影 啊 。 通 过 这 样 的 措施 ， 数 据 节 点 可 以 
确保 每 个 目 杂 中 的 文件 块 数 是 可 控 的 ， 也 人 避免 了 一 个 目录 中 存在 过 多 
XIF e 


10.2 ”Hadoop 的 状态 监视 和 管理 工具 


对 一 个 系统 运 维 的 管理 员 来 说 ， 进 行 系统 监控 是 必须 的 。 监 探 的 
目的 是 了 解 系统 何 时 出 现 问题 ， 并 找到 问题 出 在 哪里 ， 从 而 做 出 相应 
的 处 理 。 管 理 守护 进程 对 监控 NameNode、DataNode 和 JobTracker 是 非 
常 重要 的 。 在 实际 运行 中 ， 因 为 DataNode 及 TaskTracker 的 故障 可 能 随 
时 出 现 ， 所 以 集群 需要 提供 额外 的 功能 以 应 对 少 部 分 节点 出 现 的 故 
障 。 管 理 员 也 要 陋 一 段 时 间 执 行 一 些 监测 任务 ， 以 获知 当前 集群 的 运 


行 状 态 。 本 节 将 详细 介绍 Hadoop 如 何 实现 系统 监控 。 


10.2.1 审计 日 志 


HDFS 通 过 审计 日 志 可 以 实现 记录 文件 系统 所 有 文件 访问 请 求 的 
功能 ， 其 审计 日 志 功 能 通过 log4j 实 现 ， 但 是 在 默认 配置 下 这 个 功能 是 
关闭 的 : log 的 记录 等 级 在 log4j.properties 中 被 设置 为 WARN: 


log4j.logger.org.apache.hadoop.fs.FSNamesystem. audit=WARN 


在 此 处 将 WARN 修 改 为 INFO， 便 可 打开 审计 日 志 功 能 。 这 样 在 每 
个 HDFS 事 件 之 后 ， 系 统 都 会 在 NameNode 的 log 文 件 中 写 入 一 行 记录 。 
下 面 是 一 个 请 求 /usr/hadoop 文 件 的 例子 : 


2010-03-13 07: 11: 22, 982 INFO 
org.apache.hadoop.hdfs.server.namenode.FSNamesystem. audit: 
ugi=admin, staff, admin ip=/127.0.0.1 cmd=listStatus 
src=/user/admin=null 

perm=null 


天 于 log4j 还 有 很 多 其 他 配置 可 改 ， 比 如 可 以 将 审计 日 志 从 
NameNode 的 日 志文 件 中 分 离 出 来 等 。 上 有 具体 操作 可 碍 看 Hadoop 的 
Wiki: http: //wiki.apache.org/hadoop/HowToConfigure ° 


10.2.2 ”监控 日 志 

所 有 Hadoop 守 护 进 程 都 会 产生 一 个 日 志文 件 ， 这 对 管理 员 来 说 非 
常 重 要 。 下 面 我 们 就 介绍 如 何 使 用 这 些 日 志文 件 。 

1. HE 日 志 JQ) 级 别 


当 进 行 故障 调试 排除 时 ， 很 有 必要 临时 调整 日 志 的 级 别 ， 以 获得 
系统 不 同类 型 的 信息 。log4j 日 志 一 般 包 含 这 样 儿 个 级 别 : OFF ` 
FATAL、ERROR、WARN、INFO、DEBUG、ALL 或 用 户 自 定义 的 级 


别 。 


Hadoop 守 护 进程 有 一 个 网 络 页 面 可 以 用 来 调整 任何 log4j 日 志 的 级 
别 ， 在 守护 进程 的 网 络 UI 后 附 后 缀 /logLevel 即 可 访问 该 网 络 页 面 。 按 
照 规 定 ， 日 志 的 名 称 和 它 所 对 应 的 执行 日 志 记录 的 类 名 是 一 样 的 ， 可 
以 通过 查找 源 代码 找到 日 志 名 称 。 例 如 ， 为 了 调试 JobTracker 类 的 日 
志 ， 可 以 访问 JobTracker 的 网 络 UI: http: //jobtracker-host: 


50030/logLevel， 同 时 设置 日 志 名 称 
org.apache.hadoop.mapred.JobTracker 到 层级 DEBUG。 当然 也 可 以 通过 
命令 行进 行 调整 ， 代 码 如 下 : 


hadoop daemonlog-setlevel jobtracker-host: 50030\ 
org.apache.hadoop.mapred.JobTracker DEBUG 


通过 命令 行 修改 的 日 志 级 别 会 在 守护 进程 重启 时 被 重 置 ， 如 采 想 
要 持久 化 地 改变 日 志 级 别 ， 那 么 只 要 改变 log4j.properties 文 件 内 容 即 
可 。 我 们 可 以 在 文件 中 加 入 以 下 行 : 


log4j.logger.org.apache.hadoop.mapred. JobTracker=DEBUG 


2. 获 取 堆 栈 信息 


有 关系 统 的 堆栈 信息 ，Hadoop 守 护 进 程 提 供 了 一 个 网 络 页 面 (在 
网 络 UI 后 附 后 缀 /stacks 才 可 以 访问 ) ， 该 网 络 页 面 可 以 为 管理 员 提供 
所 有 守护 进程 JVM 中 运行 的 线程 信息 。 可 以 通过 以 下 链接 访问 该 网 络 
页 面 : http: //jobtracker-host: 50030/stacks ° 


10.2.3 Metrics 


事实 上 ， 除 了 Hadoop 自 带 的 日 志 功 能 以 外 ， 还 有 很 多 其 他 可 以 扩 
展 的 Hadoop 监 控 程 序 供 管理 员 使 用 。 在 介绍 这 些 监控 工具 之 前 ， 先 对 
系统 的 可 度量 信息 (Metrics) 进行 徐 单 讲解 。 


HDFS 及 MapReduce 的 守护 进程 会 按照 一 定 的 规则 来 收集 系统 的 度 
量 信 息 。 我 们 将 这 种 度量 规则 称 为 Metrics。 例 如 ，DataNode 会 收集 如 
下 度量 信息 : 写 入 的 字 下 数 、 被 复制 的 文件 块 数 及 来 目 客户 端的 请 求 


数 等 。 


Metrics 属 于 一 个 上 下 文 ， 当 前 Hadoop 拥 有 dfs、mapred、rpc、jvm 
等 上 下 文 。Hadoop 守 护 进 程 会 收集 多 个 上 下 文 的 度量 信息 。 所 谓 上 下 
文 即 应 用 程序 进入 系统 执行 时 ， 系 统 为 用 户 提供 的 一 个 完整 的 运行 时 
环境 。 进 程 的 运行 时 环境 是 由 它 的 程序 代码 和 程序 运行 所 需要 的 数据 
结构 以 及 硬件 环境 组 成 的 。 


这 里 我 们 认为 ， 一 个 上 下 文 定义 了 一 个 单元 ， 比 如 ， 可 以 选择 获 
取 dfs 上 下 文 或 jym 上 上 下文。 我们 可 以 通过 配置 
conf/hadoopmetrics.properties 文 件 设 定 Metrics。 在 默认 情况 下 ， 会 将 所 
有 上 下 文 都 配置 为 NulContext 类 ， 这 代表 它们 不 会 发 布 任何 Metrics。 
下 面 是 配置 文件 的 默认 配置 情况 : 


dfs.class=org.apache.hadoop.metrics.spi.NullContext 
mapred.class=org.apache.hadoop.metrics.spi.NullContext 
jvm.class=org.apache.hadoop.metrics.spi.NullContext 
rpc.class=org.apache.hadoop.metrics.spi.NullContext 


其 中 每 一 行 都 针对 一 个 不 同 的 上 下 文 单元 ， 同 时 每 一 行 定义 了 处 
理 此 上 下 文 Metrics 的 类 。 这 里 的 类 必须 是 MetricsContext 接 口 的 一 个 实 
现 ， 在 上 面 的 例子 中 ， 这 些 NullContext 类 正如 其 名 ， 什 么 都 不 做 ， 既 
不 发 布 也 不 更 新 它们 的 Metrics 。 


下 面 我 们 来 介绍 MetricsContext 接 口 的 实现 。 
1.FileContext 


利用 FileContext 可 将 Metrics 写 入 本 地 文件 。FileContext 拥 有 两 个 属 
PE: fileName 一 定义 文件 的 名 称 ，period -指定 文件 更 新 的 间隔 。 这 两 
个 属性 都 是 可 选 的 ， 如 果 不 进 行 设 置 ， 那 么 Metrics 每 隔 5 秒 就 会 写 入 
标准 输出 。 


配置 属性 将 应 用 于 指定 的 上 下 文中 ， 并 通过 在 上 下 文 名 称 后 附加 
点 “.” 及 属性 名 进行 标示 。 比 如 ， 为 了 将 jvm 导 出 一 个 文件 ， 我 们 会 通 
过 以 下 方法 调整 它 的 配置 : 


jvm.class=org.apache.hadoop.metrics.file.FileContext 
jvm. fileName=/tmp/jvm_metrics.log 


其 中 ， 第 一 行使 用 FileContex 来 改变 jvm 的 上 下 文 ， 第 二 行将 jvm 
上 上 下文 导 出 临时 文件 。 


需要 注意 的 是 ，FileContext 非 党 适合 于 本 地 系统 的 调试 ， 但 是 它 
并 不 适合 在 大 型 集群 中 使 用 ， 因 为 它 的 输出 文件 会 被 分 散 到 集群 中 ， 
使 分 析 的 时 间 成 本 变 得 很 高 。 


2.GangliaContext 


Ganglia (http: //ganglia. info/) 是 一 个 开源 的 分 布 式 监控 系统 ， 
主要 应 用 于 大 型 分 布 式 集群 的 监控 。 通 过 它 可 以 更 好 地 监控 和 调整 集 
群 中 每 个 机 器 节点 的 资源 分 配 。Ganglia 本 身 会 收集 一 些 监 控 信息 
括 CPU 和 内 存 使 用 率 等 。 通 过 使 用 GangliaContext 我 们 可 以 非常 方便 地 
将 Hadoop 的 一 些 测量 内 容 注 入 Ganglia 中 。 此 外 ，GangliaContext 有 一 
个 必须 的 属性 一 servers， 它 的 属性 值 是 通过 空格 或 逗号 分 隔 的 Ganglia 
服务 器 主机 地 址 : 端口 。 我 们 将 在 10.2.5 节 中 进行 详细 讲解 。 


3.NullContextWithUpdateThread 


过 前 面 的 介绍 ， 我 们 会 发 现 FileContext 和 GangliaContext 都 将 
Metrics 推 广 到 外 部 系统 。 而 Hadoop 内 部 度量 信息 的 获取 需要 另外 的 工 
具 ， 比 如 著名 的 Java 管 理 扩展 (Java Management Extensions, JMX) , 
JMX 中 的 NullContextWithUpdateThread 就 是 用 来 解决 这 个 问题 的 (我 
们 将 在 后 面 进行 详细 讲解 ) 。 和 NullContext 相 似 ， 它 不 会 发 布 任何 


Mertics， 但 是 它 会 运行 一 个 定时 局 周期 性 地 更 狐 内 存 中 的 Metrics， 以 
保证 另外 的 系统 可 以 获得 最 新 的 Metrics。 


除 NullContextWithUpdateThread 外 ， 所 有 MetricsContext 都 会 执行 
这 种 在 内 存 中 定时 更 新 的 方法 ， 所 以 只 有 当 不 使 用 其 他 输出 进行 
Metrics 收 集 时 ， 才 需要 使 用 NullContext-WithUpdateThread。 举 例 来 
说 ， 如 果 之 前 正在 使 用 GangliaContext， 那 么 随后 只 要 确认 Metrics 是 否 
被 更 新 ， 而 且 只 需要 使 用 JMX， 不 用 进一步 对 Metrics 系 统 进 行 配置 。 


4.CompositeContext 


CompositeContext 人 允许 我 们 输出 多 个 上 下 文中 的 相同 的 Metrics， 
比如 下 面 的 这 个 例子 : 


jvm.class=org.apache.hadoop.metrics.spi.CompositeContext 
jvm.arity=2 
jvm.sub1.class=org.apache.hadoop.metrics.file.FileContext 

jvm. fileName=/tmp/jvm_metrics.log 
jvm.sub2.class=org.apache.hadoop.metrics.ganglia.GangliaContext 
jvm. servers=ip-10-70-20-111.ec2.internal: 8699 


其 中 arity 属 性 用 来 定义 子 上 下 文 数量 ， 在 这 里 它 的 值 为 2。 所 有 子 
上 下 文 的 属性 名 称 都 可 以 使 用 下 面 的 句子 设置 : 


jvm.sub1.class=org.apache.hadoop.metrics.file.FileContext ° 


10.2.4 ” Java 管理 扩展 


Java 管 理 扩展 (JMX) 是 一 个 为 应 用 程序 、 设 备 、 系 统 等 植 入 管 
理 功 能 的 框架 。JMX 可 以 跨越 一 系列 异 构 操作 系统 平台 、 系 统 体系 结 
构 和 网 络 传输 协议 ， 灵 活 地 开发 无 颖 集成 的 系统 、 网 络 和 服务 管理 应 
用 。Hadoop 包 含 多 个 MBean (Managed Bean， 管 理 服务 ， 它 描述 一 个 
可 管理 的 资源 ) ， 它 可 以 将 Hadoop 的 Metrics 应 用 到 基于 JMX 的 应 用 程 
序 中 。 当 前 MBeans 可 以 将 Metrics 展 示 到 dfs 和 rpc 上 中 文中 ， 但 不 能 在 
mapred 及 jvm 上 下 文中 实现 。 表 10-1 是 MBeans 的 列表 。 


表 10-1 Hadoop 的 MBeans 


MBean 类 ic HH 


名 称 节点 活动 的 产量 ， 比 如 创建 文 
件 操作 的 数量 

名 称 节 吉 状 态 的 放量， 比如 已 连接 
的 数据 节点 数量 


NamcNodeActivityM Bean 
FsaNamesystemMbean 


He AER, letik AIF 
tt y 
PEX 
BARATTE, EA. 2 
HTE iK B) 
所 有 使 用 RPC APAE: ， 名 称 节 点 、 数 | RPC 统计 数据 ， 比 如 平均 处 理 
RpcActivityMbecan 所 有 人 j te Ee ilit % Kh i AU. et 处 
HA, JobTracker 和 TaskTracker ip fa) 


DataNodcActivityMbean 


FSdatasetMbean 


JDK 中 的 Jconsole 工 具 可 以 帮助 我 们 查看 JVM 中 运行 的 MBeans 信 
息 ， 使 我 们 很 方便 地 浏览 Hadoop 中 的 监控 信息 。 很 多 第 三 方 监控 和 调 
整 系统 (Nagios 和 Hyperic 等 ) 可 用 于 查询 MBeans， 这 样 JMX 上 自然 就 成 
为 我 们 监控 Hadoop 系 统 的 最 好 工具 。 但 是 ， 需 要 设置 文 持 远程 访问 的 
JMX， 并 且 设 置 一 定 的 安全 级 别 ， 包 括 密码 权限 、SSL 链 接 及 SSL 客 户 


端 权限 设置 等 。 为 了 使 系统 支持 远程 访问 ，JMX 要 求 对 一 些 选 项 进行 
更 改 ， 其 中 包括 设置 Java 系 统 的 属性 (可 以 通过 编辑 Hadoop 的 
conf/hadoop-env.sh 文 件 实 现 ) 。 下 面 的 例子 展示 了 如 何 通过 密码 远程 
访问 NameNode 中 的 JMX (在 SSL 不 可 用 的 条 件 下 ) : 


export HADOOP_NameNode_OPTS="-Dcom.sun.management.jmxremote 
-Dcom.sun.management . jmxremote.ssl=false 


Dcom.sun.management.jmxremote. password. file=$HADOOP_CONF_DIR/jmxrem 
ote.password 
-Dcom.sun.management . jmxremote.port=8004$HADOOP_NameNode_OPTS" 


jmxremote. password 文 件 以 纯 文本 的 格式 列 出 了 所 有 的 用 户 名 和 


密码 。JMX 文 档 有 关于 jmxremote.password 文 件 的 更 进一步 的 格式 信 
Ao 


JON 


通过 以 上 的 配置 ， 我 们 可 以 使 用 JConsole 工 具 浏览 远程 NameNode 
中 的 MBean 监 控 信息 。 事 实 上 ， 我 们 还 有 很 多 其 他 方法 实现 这 个 功 
能 ， 比 如 通过 jmxquery (一 个 命令 行 工具 ， 具 体 信 息 可 查看 
http: //code.google.com/p/jmxquery/) 来 检索 低 于 副本 要 求 的 块 : 


./check_jmx-U service: jmx: rmi: ///jndi/rmi: //NameNode-host: 
8004/jmxrmi-O\ 

hadoop: service=NameNode, name=FSNamesystemState-A 
UnderReplicatedBlocks\ 

-w 100-c 1000-username monitorRole-password secret 

JMX OK-UnderReplicatedBlocks is 0 


通过 jmxquery 命 令 创建 一 个 JMX RMI 链 接 ， 链 接 到 NameNode 主 机 
地 址 上 ， 端 口号 为 8004。 它 会 读 取 对 象 名 为 hadoop: 
service=NameNode, name=FSNamesystemState 的 UnderReplicatedBlocks 
属性 ， 并 将 读 出 的 值 写 入 终端 。-w、-c 选 项 定义 了 警告 和 数值 的 临界 
值 ， 这 个 临界 值 的 选 定 要 在 我 们 运行 和 维护 集群 一 段 时 间 以 后 才能 选 
出 比较 合适 的 经 验 值 。 


需要 注意 的 是 ， 尽 管 我 们 可 以 通过 JMX 的 默认 配置 看 到 Hadoop 的 
监控 信息 ， 但 是 它们 不 会 目 动 更 新 ， 除 非 更 改 MetricContext 的 具体 实 
现 。 如 果 JMX 是 我 们 使 用 的 监控 系统 信息 的 唯一 方法 ， 那 么 就 可 以 把 
MetricContext 的 实现 更 改 为 NullContextWithUpdateThread ° 


通常 大 多 数 人 会 使 用 Ganglia 和 另外 一 个 可 选 的 系统 (比如 
Nagios) 来 进行 Hadoop 集 群 的 检测 工作 。Ganglia 可 以 很 好 地 完成 大 数 
据 量 监控 信息 的 收集 和 图 形 化 工作 ， 而 Nagios 及 类 似 的 系统 则 更 擅长 
处 理 小 规模 的 监控 数据 ， 并 且 在 监控 信息 超出 设 定 的 监控 阐 值 时 发 出 
和 警告。 管理 者 可 以 根据 需求 选择 合适 的 工具 。 下 一 节 我 们 整 对 Ganglia 
的 使 用 配置 进行 详细 讲解 。 


10.2.5 Ganglia 


Ganglia 是 UC Berkeley 发 起 的 一 个 开源 集群 监视 项 目 ， 用 于 测量 数 
以 千 计 的 节点 集群 。Ganglia 的 核心 包含 两 个 Daemon 〈 分 别 是 客户 端 
Ganglia Monitoring Daemon (gmond) 和 服务 端 Ganglia Meta Daemon 
(gmetad) ， 以 及 一 个 Web 前 端 。Daemon 主 要 是 用 来 监控 系统 性 能 ， 
如 CPU、memory、 人 硬盘 利 用 率 、L/O 负 载 、 网 络 流量 情况 等 ，Web 前 端 
页 面 主要 用 于 获得 各 个 节点 工作 状态 的 曲线 描述 。Ganglia 可 以 帮助 我 
们 合理 调整 、 分 配 系统 资源 ， 为 提高 系统 整体 性 能 起 到 了 重要 作用 。 


处 于 监控 状态 下 的 每 台 位 于 节点 上 的 计算 机 都 需要 运行 一 个 收集 
和 发 送 度量 数据 的 名 为 gmond 的 守护 进程 。 接 收 所 有 度量 数据 的 主机 
可 以 显示 这 些 数据 ， 并 且 可 以 将 这 些 数据 传递 到 监控 主机 中 。gmond 
市 来 的 系统 负载 非常 少 ， 它 的 运行 不 会 影响 用 户 应 用 进程 的 性 能 
次 收集 这 些 数据 则 会 影响 市 点 性 能 。 网 络 中 的 “ 拌 动 ”发 生 在 大 量 小 消 
息 同 时 出 现时 ， 可 以 通过 将 节点 时 钟 保持 一 致 来 避免 这 个 问题 。 


的 运 
Waa 


gmetad A] ARE ERENER ie Ph EA Ba Pe I] 
集群 的 独立 主机 中 ， 它 通过 单 播 路 由 的 方式 与 gmond 通 信 ， 收 集 区 域 
内 节操 的 状态 信息 ， 并 以 XML 数 据 的 形式 保存 在 数据 库 中 。 最 终 由 
RRDTool 工 具 处 理 数据 ， 并 生成 相应 的 图 形 显 示 ， 以 Web 方 式 直观 地 


fe hea PF I ° XS ARS as A] DCA fie — “Ma URS, FY DA 
同时 监控 多 个 客户 端的 系统 状况 ， 并 把 信息 显示 在 Web 界 面 上 。 通 过 
Web 端 连接 这 个 服务 器， 束 可 以 看 到 它 所 监控 的 所 有 机 需 状 态 。 


1. 服 务 右 端的 安装 与 配置 


首先 需要 在 服务 器 端 安装 下 列 包 : ganglia-gmetad-3.0.3- 
1.fc4.i386.rpm (从 各 个 网 段 获 取 汇 总 监控 信息 ) , rrdtool-1.2.18- 
1.el4.rf.i386.rpm (显示 图 像 的 工具 ) , rrdtool-devel-1.2.18- 
1.el4.rf.i386.rpm, ganglia-web-3.0.3-1.noarch.rpm (Ganglia 的 Web 程 
Fe) ，perl-rrdtool-1.2.18-1.el4.rf.i386.rpm。 使 用 轨 pm-ivh 软 件 包 .rppm 可 


安装 完成 之 后 ， 找 到 Ganlia 服 务 端的 配置 文档 : /etc/gmetad.conf, 
可 以 根据 不 同 的 需求 进行 配置 。 在 这 里 只 简单 介绍 一 下 如 何 添加 或 修 
改 要 监控 的 系统 。 先 通过 #vi/etc/gmetad.conf 命 令 〈 进 入 编辑 ) ， 找 到 
data_source“Login FARM”10.77.20.111: 8651 10.77.20.111: 8699 (后 
面 的 这 些 IP 地 址 就 是 要 监控 的 主机 ， 冒 号 后 跟 的 是 要 监听 的 端口 号 ， 
这 个 端口 号 将 在 介绍 客户 端的 配置 时 提 到 ) 。 其 他 属性 保持 默认 配置 
RAY 。 


配置 完成 后 要 重 局 gmetad 服 务 : #service gmetad restart。 下面 我 们 
来 配置 虚拟 主机 ， 设 置 路 径 DocumentRoot 为 "/var/www/html/ganglia": 


# 配 置 虚 拟 主机 
<Directory"/var/www/html/ganglia" > 
Options Indexes FollowSymLinks 
AllowOverride None 

Order allow, deny 

Allow from all 

</Directory> 


然后 重启 httpd 服 务 : service httpd restart， 即 完成 服务 器 端的 安装 
和 配置 。 


2. 客 户 端的 安 痛 与 配置 


在 客户 并 安 狼 Ganglia， 是 为 了 收集 本 机 的 信息 ， 并 通过 设置 好 的 
端口 把 信息 传 给 服务 右 端 ， 因 此 我 们 需要 在 所 有 市 点 上 进行 相应 的 安 
淡 和 配置 。 下 面 我 们 来 讲解 如 何 进行 客 户 端 的 安 六 。 


首先 在 客户 端 安 装 软件 包 : ganglia-gmond-3.0.3-1.fc4.i386.rpm ° 
安装 完成 后 ， 找 到 它 的 配置 文档 /etc/gmond.conf 并 打开 编辑 
(#vi/etc/gmond.conf) 。 接 着 找到 配置 文件 中 如 下 部 分 并 按照 所 给 出 
的 例子 进行 配置 。 


/*You can specify as many tcp_accept_channels as you like to 
share 

an xml description of the state of the cluster*/ 

tcp_accept_channel{ 

port=8699/* 注 释 : 这 个 是 端口 ， 通 过 它 来 传送 系统 信息 。 注 意 要 和 服务 器 端 监听 的 端 
口 一 致 */ 

acl{ 

default="deny" 

access{ 

ip=10.77.20.111/*7JEF: 这 里 是 服务 器 的 IP 地 址 */ 

mask=32 


action="allow" 


ttt 


完成 配置 后 ， 重 启 gmond 服 务 (#service gmond restart) 即 可 。 至 
此 Ganglia 在 服务 器 端 和 客户 端的 安装 完成 ， 我 们 可 以 查看 它 的 运行 状 
态 ， 如 图 10-2 所 示 。 
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10-2 Ganglia 的 监控 页 面 


事实 上 ， 有 很 多 其 他 可 以 扩展 Hadoop 监 控 能 力 的 工具 比如 本 书 第 
17 草 介绍 的 Chukwa， 它 是 一 个 数据 收集 和 监控 系统 ， 构 建 于 HDFS 和 
MapReduce 之 上 ， 也 是 可 供 管理 员 选 择 的 监控 工具 。Chukwa 可 以 统计 
分 析 日 志文 件 ， 从 而 提供 给 管理 员 想 要 的 信息 。 


10.2.6 ”Hadoop 管 理 命令 


在 了 解 扩 展 的 监控 管理 工具 的 同时 ， 也 不 能 起 记 Hadoop 本 里 为 我 
们 提供 了 相应 的 系统 管理 工具 ， 本 市 我 们 就 对 相关 的 工具 进行 介绍 。 


1.dfsadmin 


dfsadmin 是 一 个 多 任务 的 工具 ， 我 们 可 以 使 用 它 来 获取 HDFS 的 状 
态 信息 ， 以 及 在 HDFS 上 执行 的 管理 操作 。 管 理 员 可 以 在 终端 中 通过 
Hadoop dfsadmin 命 令 调 用 它 ， 这 里 需要 使 用 超级 用 户 权 限 。dfsadmin 
相关 的 命令 如 表 10-2 所 示 。 


Gy > ET 
-report 


-safemode enter | leave | get | wait 


-refreshNodes 


-finalize Upgrade 


-upgradeProgress status | details | force 


-metasave filename 


-setQuota <quota> <dirname>...<dirname> 


-clrQuota <dirname>...<dirname> 


-help fcmd] 


2. 文 件 系统 验证 (fsck) 


表 10-2 dfsadmin 命令 解析 


8) 述 
告 文件 系统 移 基 本 信息 和 统计 箔 息 
安全 模式 维护 疝 令 。 安 全 模式 是 NameNode 的 一 种 状态 ， 在 这 种 状 
态 下 ，NameNode 不 接受 对 名 字 空 间 的 更 改 【 只 读 ) 不 复制 或 删除 块 
NameNode 会 在 启动 时 自动 进 人 安全 檬 式 ， 当 配置 块 的 最 小 百分数 
满足 最 小 副本 数 的 条 件 时 ， 会 自动 离开 安全 模式 ， 可 以 手动 进 人 安全 
模式 ， 但 是 也 必须 手动 关闭 它 
重新 读 取 hosts 和 exclude 文件 ， 使 新 的 节点 或 需要 退出 集群 的 节点 
能 够 被 NameNode 重新 识别 。 
终结 HDFS 的 升级 操作 ，DataNode 删除 前 一 个 版 本 的 工作 且 录 ， 之 
后 NameNode 下 这样 做 
请 求 当 前 系统 的 升级 状态 .升级 状态 的 细节 ， 或 者 进行 强制 升级 操作 
保存 NameNode 的 主要 数据 结构 到 hadoop-log-dir 属性 指定 的 目录 下 
的 <filename> 文件 中 。 对 于 下 面 的 每 一 项 ，<filcname> 中 都 有 一 行内 
穿 与 之 对 应 : 
1) NameNode 收 到 的 DataNode 的 心跳 信号 
2) 等 待 被 复制 的 块 
3) 正在 被 复制 的 块 
4) 等 待 被 删除 的 块 
为 每 个 目录 <dirname> 设 定 配额 <quota>。 有 目录 配 额 是 一 个 长 整 型 束 
数 ， 强 制 限定 目录 树 下 的 名 字 个 数 。 以 下 销 癌 会 报错 : 
1) N 不 是 一 个 正 整 数 
2) 用 户 不 是 管理 员 
3) 这 个 日 录 不 存在 或 为 文件 
4) 目录 会 马上 超出 新 设 定 的 配额 
为 每 个 目录 =dirname> 清除 配额 设 定 。 以 下 情况 会 报错 : 
1) 读 目 录 不 存在 或 为 文件 
2) 开户 不 是 管理 员 
如 果 目 录 原 来 设 有 配额 ， 则 不 会 报错 
显示 皆 定 命令 的 帮助 信息 ， 如 果 没 有 络 定 命令 ， 则 显示 所 有 命令 的 
帮助 信和 外 


Hadoop 提 供 了 fsck 工 具 来 验证 HDFS 中 的 文件 是 否 正常 可 用 。 这 个 
工具 可 以 检测 文件 块 是 否 在 DataNode 中 丢失 ， 是 否 低 于 或 高 于 文件 副 
本 要 求 。 下 面 给 出 使 用 的 例子 : 


hadoop fsck/ 

ars Status: HEALTHY 
Total size: 511799225 B 
Total dirs: 10 

Total files: 22 


Total blocks (validated) : 22 (avg.block size 23263601 B) 
Minimally replicated blocks: 22 (100.0%) 
Over-replicated blocks: 9 (0.0%) 
Under-replicated blocks: 0 (0.0%) 
Mis-replicated blocks: © (0.0%) 

Default replication factor: 3 

Average block replication: 3.0 

Corrupt blocks: 0 

Missing replicas: © (0.0%) 

Number of data-nodes: 4 

Number of racks: 1 

The filesystem under path'/'is HEALTHY 


fsck 会 递归 通 历 文 件 系统 的 Namespace， 从 文件 系统 的 根 目 孙 开始 
仿 测 它 所 找到 的 全 部 文件 ， 并 在 它 验 证 过 的 文件 上 标记 一 个 点 。 要 检 
查 一 个 文件 ，fsck 首 先 会 检索 元 数据 中 文件 的 块 ， 然 后 查看 是 否 有 问题 
或 是 否 一 致 。 这 里 需要 注意 的 是 ，fsck 难 证 只 和 NameNode 通 信 而 不 和 


DataNode 通 信 。 


以 下 是 几 种 fsck 的 输出 情况 。 
(1) Over-replicated blocks 


Over-replicated blocks 用 来 指明 一 些 文件 块 副本 数 超出 了 它 所 属 文 
件 的 限定 。 通 常 来 说 ， 过 量 的 副本 数 存 在 并 不 是 问题 ，HDFS 会 自动 删 


除 多 余 的 副本 。 


(2) Under-replicated blocks 


Under-replicated blocks 用 来 指明 文件 块 数 未 达到 所 属 文件 要 求 的 副 
本 数量 。HDFS 也 会 目 动 创建 新 的 块 直到 该 块 的 副本 数 能 够 达到 要 求 。 
可 以 通过 hadoop dfsadmin-metasave 命 令 获 得 正在 被 复制 的 块 信息 。 


(3) Misreplicated blocks 


Misreplicated blocks 用 来 指明 不 满足 块 副 本 存储 位 置 策 略 的 块 。 例 
如 ， 假 设 副本 因子 为 3， 如 果 一 个 块 的 所 有 副本 都 存在 于 一 个 机 器 中 ， 
那么 这 个 块 就 是 Misreplicated blocks。 针 对 这 个 问题 ，HDFS 不 会 自动 
调整 。 我 们 只 能 通过 手动 设置 来 提高 该 文件 的 副本 数 ， 然 后 再 将 它 的 
副本 数 设置 为 正常 值 来 解决 这 个 问题 。 


(4) Corrupt blocks 


Corrupt blocks 用 来 指明 所 有 的 块 副本 全 部 出 现 问题 。 只 要 块 存在 
的 副本 可 用 ， 它 就 不 会 被 报告 为 Corrupt blocks。NameNode 会 使 用 没有 
出 现 问 题 的 块 进行 复制 操作 ， 直 到 达到 目标 值 。 


(5) Missing replicas 


Missing replicas 用 来 表明 集群 中 不 存在 副本 的 文件 块 。 


Missing replicas Corrupt blocks 被 关注 得 最 多 ， 因 为 出 现 这 两 种 情 
况 意 味 着 数据 的 丢失 。fsck 默 认 不 去 处 理 那 些 丢 失 或 出 现 问题 的 文件 
块 ， 但 是 可 以 通过 命令 使 其 执行 以 下 操作 : 


通过 -move， 将 出 现 问题 的 文件 放 入 HDFS 的 /lost+found 文 件 夹 
Rie 


通过 -delete 选 项 将 出 现 问题 的 文件 删除 ， 删 除 后 即 不 可 恢复 。 


3. 找 到 某 个 文件 的 所 有 块 


fsck 提 供 一 种 简单 的 方法 用 于 碍 找 属于 某 个 文件 的 所 有 块 ， 代 码 如 
F: 


hadoop fsck/user/admin/In/hello.txt-files-blocks-racks 

/user/admin/In/hello.txt 13 bytes, 1 block (s) : OK 

0.blk_-8114668855310504639_1056 len=13 repl=1[/default- 
rack/127.0.0.1: 50010] 

Status: HEALTHY 

Total size: 13 B 

Total dirs: 0 

Total files: 1 

Total blocks (validated) : 1 (avg.block size 13 B) 

Minimally replicated blocks: 1 (100.0%) 

Over-replicated blocks: © (0.0%) 

Under-replicated blocks: 0 (0.0%) 

Mis-replicated blocks: © (0.0%) 

Default replication factor: 1 

Average block replication: 1.0 

Corrupt blocks: 0 

Missing replicas: © (0.0%) 

Number of data-nodes: 1 

Number of racks: 1 

The filesystem under path'/user/admin/In/hello.txt'is HEALTHY 


从 以 上 输出 中 可 以 看 到 : 文件 hello.txt 由 一 个 块 组 成 ， 并 且 命 令 也 
返回 了 它 所 在 的 DataNode。fsck 的 选项 如 下 : 


-files， 显 示 文件 的 文件 名 称 、 大 小 、 块 数量 及 是 否 可 用 (是 否 存 
在 丢失 的 块 ) ，; 


-blocks， 显 示 每 个 块 在 文件 中 的 信息 ， 一 个 块 用 一 行 显示 ; 
-racks， 展 示 了 每 个 块 所 处 的 机 染 位 置 及 DataNode 的 位 置 。 
运行 fsck 命 令 ， 如 有 果 不 加 选项 ， 则 执行 以 上 所 有 指令 。 
4.DataNode 块 扫描 任务 


每 个 DataNode 部 会 执行 一 个 块 扫描 任务 ， 它 会 周期 性 地 验证 它 所 
存储 的 块 ， 这 就 允许 有 问题 的 块 能 够 在 客户 端 读 取 时 被 删除 或 修整 。 
DataBlockScanner 可 维护 一 个 块 列表 ， 它 会 一 个 一 个 地 扫描 这 些 块 ， 并 
进行 校 验 和 验证 。 


进行 块 验 证 的 周期 可 以 通过 dfs.DataNode.scan.period.hours 属 性 值 
来 设 定 ， 默 认为 504 小 时 ， 即 3 周 。 出 现 问 题 的 块 将 会 被 报告 给 
NameNode 进 行 处 理 。 


也 可 以 通过 访问 DataNode 的 Web 接 口 获得 块 验证 的 信息 : 
http: //datanodeIP: 50075/block ScannerReport。 下 面 是 一 个 报告 的 样 
本 。 
Total Blocks: 32 


Verified in last hour: 1 
Verified in last day: 1 


Verified in last week: 12 
Verified in last four weeks: 31 
Verified in SCAN_PERIOD: 31 

Not yet verified: 1 

Verified since restart: 2 

Scans since restart: 2 

Scan errors since restart: 0 
Transient scan errors: 0 
Current scan rate limit KBps: 1024 
Progress this period: 8% 

Time left in cur period: 99.96% 


通过 附加 后 组 listblocks (http: //datanodelP: 
50075/blockScannerReport?listblocks) ， 报 告 会 在 前 面 这 个 DataNode 中 
加 入 所 有 块 的 最 新 验证 状态 信息 。 


5. 均 衡器 (balancer) 


由 于 HDFS 不 间断 地 运行 ， 隔 一 段 时 间 可 能 就 会 出 现 文 件 在 集群 中 
分 布 不 均匀 的 情况 。 一 个 不 平衡 的 集群 会 影响 系统 资源 的 充分 利用 ， 
所 以 我 们 要 想 办 法 避免 这 种 情况 。 


balancer 程 序 是 Hadoop 的 守护 进程 ， 它 会 通过 将 文件 块 从 高 负载 的 
DataNode 转 移 到 低 使 用 率 的 DataNode 上 ， 即 进行 文件 块 的 重新 分 布 ， 
以 达到 集群 的 平衡 。 同 时 还 要 考虑 HDFS 的 块 副 本 分 配 策略 。balancer 
的 目的 是 使 集群 达到 相对 平衡 ， 这 里 的 相对 平衡 是 指 每 个 DataNode 的 
人 磁盘 使 用 率 和 整个 集群 的 资源 使 用 率 的 差 值 小 于 给 定 的 病 值 。 我 们 可 


以 通过 这 样 的 命令 运行 balancer 程 序 :，start-balancersh。 -threshold 参 数 
设 定 了 多 个 可 以 接受 的 集群 平衡 点 。 超 过 这 个 平衡 预 置 就 要 进行 平衡 


调整 ， 对 文件 块 进行 重 分 布 。 这 个 参数 值 在 大 多 数 情况 下 为 10%， 当 
然 也 可 通过 命令 行 设置 。balancer 被 设计 为 运行 于 集群 后 台中 ， 不 会 增 
加 集群 运行 负担 。 我 们 可 以 通过 参数 设置 来 限制 balancer 在 执行 
DataNode 之 间 的 数据 转移 时 占用 的 带宽 资源 。 这 个 属性 值 可 以 通过 
hdfs-site.xml 配 置 文件 中 的 dfs.balance.bandwidthPerSec 属 性 进行 修改 ， 
默认 为 1MB。 


10.3 ”Hadoop 集 群 的 维护 


10.3.1 ”安全 模式 


当 NameNode 局 动 时 ， 要 做 的 第 一 件 事 情 惑 是 将 映像 文件 fsimage 
加 载 到 内 存 ， 并 应 用 edits 文 件 记录 编辑 日 志 。 一 旦 成 功 重 构 和 之 前 文 
件 系统 一 致 且 居于 内 存 的 文件 系统 元 数据 ，NameNode 就 会 创建 一 个 
新 的 fsimage 文 件 〈 这 样 就 可 以 更 高 效 地 记录 检查 点 ， 而 不 用 依赖 于 
Secondary NameNode) 和 一 个 空 的 编辑 日 志文 件 。 只 有 全 部 完成 了 这 
些 工 作 ，NameNode 才 会 监听 RPC 和 HTTP 请 求 。 然 而 ， 如 果 NameNode 
运行 于 安全 模式 下 ， 那 么 文件 系统 只 能 对 客户 端 提 供 只 读 模式 的 视 
o 


文件 块 的 位 置信 息 并 没有 持久 化 地 存储 在 NameNode 中 ， 这 些 信 
EFEK DataNode ° FE XCF ASA EREE], NameNode 
会 在 内 存 中 存储 一 个 块 位 置 的 映射 。 在 安全 模式 下 ， 需 要 留 给 
DataNode 一 定 的 时 间 向 NameNode 上 传 它们 存储 块 的 列表 ， 这 样 
NameNode 才 能 获得 充足 的 块 位 置信 息 ， 才 会 使 文件 系统 更 加 高 效 。 
如 条 NameNode 没 有 足够 的 时 间 来 等 竺 获取 这 些 信息 ， 那 么 它 融会 认 
为 该 块 没 有 足够 的 副本 ， 进 而 安排 其 他 DataNode 复 制 。 这 在 很 多 情况 
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` 会 处 理 任何 块 复制 和 删除 指令 。 


当 最 小 副本 条 件 达到 要 求 时 ， 系 统 就 会 退出 安全 模式 ， 这 需要 延 
期 30 秒 (这 个 时 间 由 dfs.safe-mode.extension 属 性 值 确定 ， 默 认为 30， 
一 些小 的 集群 (比如 只 有 10 个 节点 ) ， 可 以 设置 该 属性 值 为 0 。 这 里 
所 说 的 最 小 副本 条 件 是 指 系 统 中 99.9% (这 个 值 由 
dfs.safemode.threshold.pct 属 性 确定 ， 默 认为 0.999) 的 文件 块 达 到 
dfs.replication.min 属 性 值 所 设置 的 副本 数 (默认 为 1) e 


当 格 式 化 一 个 新 的 HDFS 时 ，NameNode 不 会 进入 安全 模式 ， 因 为 
此 时 系统 中 还 没有 任何 文件 块 。 


使 用 以 下 命令 可 以 查看 NameNode 是 否 已 进入 安全 模式 : 


hadoop dfsadmin-safemode get 
Safe mode is ON 


在 有 些 情况 下 ， 需 要 在 等 待 NameNode 退 出 安全 模式 时 执行 一 些 
命令 ， 这 时 我 们 可 以 使 用 以 下 命令 : 


hadoop dfsadmin-safemode wait 
#command to read or write a file 


作为 管理 员 ， 也 应 掌握 使 NameNode 进 入 或 退出 安全 模式 的 方 
这 些 操作 有 时 也 是 必需 的 ， 比 如 在 升级 完 集群 后 需要 确认 数据 是 
人 否 仍 然 可 读 等 。 这 时 我 们 可 以 使 用 以 下 命令 : 


hadoop dfsadmin-safemode enter 
Safe mode is ON 


当 NameNode 仍 处 于 安全 模式 时 ， 也 可 以 使 用 以 上 命令 以 保证 
NameNode 没 有 退出 安全 模式 。 要 使 系统 退出 安全 模式 可 执行 以 下 命 


hadoop dfsadmin-safemode leave 
Safe mode is OFF 


10.3.2 ”Hadoop 的 备份 


1. 元 数据 的 备份 


如 果 NameNode 中 存储 的 持久 化 元 数据 信息 丢失 或 遭 到 破坏 ， 那 
么 整个 文件 系统 束 不 可 用 了 。 因 此 元 数据 的 备份 至 天 重要 ， 需 要 备份 
不 同时 期 的 元 数据 信息 (1 小 时 、1 天 、1 周 .……...) 以 避免 突然 宕 机 带 来 
的 破坏 。 


备份 的 一 个 最 直接 的 办 法 就 是 编写 一 个 脚本 程序 ， 然 后 周期 性 地 
将 Secondary NameNode 中 previous.checkpoint 子 目录 (该 目录 由 
fs.checkpoint.dir 属 性 值 确定 ) 下 的 文件 归档 到 另外 的 机 器 上 。 该 脚本 
需要 额外 验证 所 复制 的 备份 文件 的 完整 性 。 这 个 验证 可 以 通过 在 
NameNode 的 守护 进程 中 运行 一 个 验证 程序 来 实现 ， 验 证 其 是 否 成 功 
地 从 内 存 中 读 取 了 fsimage 及 edits 文 件 。 


2. 数 据 的 备份 


HDFS 的 设计 目标 之 一 殊 是 能 够 可 靠 地 在 分 布 式 集群 中 储存 数 
据 。HDFS 人 允许 数据 丢失 的 发 生 ， 所 以 数据 的 备份 就 显得 至 关 重 要 
了 。 由 于 Hadoop 可 以 存储 大 规模 的 数据 ， 备 份 哪些 数据 、 备 份 到 哪里 
忠 成 为 一 个 关键。 在 备份 过 程 中 ， 最 优先 备份 的 应 该 是 那些 不 能 再 生 


的 数据 和 对 商业 应 用 最 关键 的 数据 。 而 对 于 那些 可 以 通过 其 他 手段 再 
生 的 数据 或 对 于 商业 应 用 价值 不 是 很 大 的 数据 ， 可 以 考虑 不 进行 备 


tre 


这 里 需要 强调 的 是 ， 不 要 认为 HDFS 的 副本 机 制 可 以 代替 数据 的 
备份 。HDFS 中 的 Bug 也 会 导致 副本 丢失 ， 同 样 醒 件 也 会 出 现 故 障 。 尽 
管 Hadoop 可 以 承受 集群 中 廉价 商用 机 器 故障 ， 但 是 有 些 极 端 情况 不 能 
排除 在 外 ， 等 别 是 系统 有 时 还 会 出 现 软件 Bug 和 人 为 失误 的 情况 。 


通常 Hadoop 会 设置 用 户 目 录 的 策略 ， 比 如 ， 每 个 用 户 都 有 一 个 空 
间 配 额 ， 每 天 晚上 都 可 进行 备份 工作 。 但 是 不 管 设置 什么 样 的 策略 ， 
都 需要 通知 用 户 ， 以 避免 客户 反映 问题 。 


前 面 介绍 的 distcp 工 具 〈 参 见 第 9 章 HDFS 详 解 ) 是 在 不 同 HDFS 之 
间或 不 同 Hadoop 文 件 系统 之 间 转 存 和 备份 数据 的 好 工具 ， 因 为 distcp 
可 以 并 行 运行 数据 复制 。 


10.3.3 ”Hadoop 的 节点 管理 


作为 Hadoop 集 群 的 管理 员 ， 可 能 随时 都 要 处 理 增 加 和 撤销 机 侨 市 
点 的 任务 。 例 如 ， 要 增加 集群 的 存储 容量 ， 束 要 增加 新 的 节点 。 相 
反 ， 要 缩小 集群 的 规模 ， 融 需要 撤销 已 存在 的 节点 。 如 果 一 个 和 点 频 
繁 地 发 生 故 障 或 运行 绥 慢 ， 那 么 也 要 考虑 撤销 已 存在 的 太 点 。 节 点 一 
般 承 担 DataNode 和 TaskTracker 的 任务 ，Hadoop 文 持 对 它们 的 添加 和 撤 
$H o 
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在 第 2 章 ， 我 们 介绍 了 如 何 部 署 Hadoop 集 群 ， 可 以 看 到 添加 一 个 
新 的 节点 虽然 只 用 配置 hdfs-site.xml 文 件 和 mapred-site.xml 文 件 ， 但 最 
好 还 是 配置 一 个 授权 市 点 列表 。 


如 果 人 允许 任何 机 句 都 可 以 连接 到 NameNode 上 并 元 当 DataNode， 
这 十 存在 安全 隐患 的 ， 因 为 这 样 的 机 颖 可 能 能 够 获得 未 授权 文件 的 访 
问 权 限 。 此 外 这 样 的 机 器 并 不 是 真正 的 DataNode， 但 它 可 以 存储 数 
据 ， 却 又 不 在 集群 的 控制 之 下 ， 并 且 任 何 时 候 都 有 可 能 停止 运行 ， 从 
而 造成 数据 丢失 。 由 于 配置 滑 单 或 存在 配置 错误 ， 即 使 在 防火 墙 内 这 
样 的 处 理 也 可 能 存在 风险 ， 因 此 在 集群 中 也 要 对 DataNode 进 行 明确 的 


管理 。 


在 dfs.hosts 文 件 中 指定 可 以 连接 到 NameNode 的 DataNode 列 表 ° 
dfs.hosts 文 件 存储 在 NameNode 的 本 地 文件 系统 上 ， 包 含 每 个 DataNode 
的 网 络 地 址 ， 一 行 表 示 一 个 DataNode。 要 为 一 个 DataNode 设 置 多 个 网 
络 地 址 ， 把 它们 写 到 一 行 中 ， 中 间 用 空格 分 开 。 类 似 的 ，TaskTracker 
是 在 mapred.hosts 中 设置 的 。 一 般 来 说 ，DataNode 和 TaskTracker 列 表 都 
存在 一 个 共享 文件 ， 名 为 include file。 该 文件 被 dfs.hosts 及 mapred.hosts 
两 者 引用 ， 因 为 在 大 多 数 情况 下 ， 集 群 中 的 机 器 会 同时 运行 DataNode 
及 TaskTracker 守 护 进程 。 


需要 注意 的 是 ，dfs.hosts 和 mapred.hosts 这 两 个 文件 与 slaves 文 件 不 
同 ，slaves 文 件 补 Hadoop 的 执行 脚本 用 于 执行 集群 范围 的 操作 ， 例 如 
集群 的 重启 等 ， 但 它 从 来 不 会 被 Hadoop 的 守护 进程 使 用 。 


要 问 集 群 添 加 新 的 万 点， 需要 执行 以 下 步骤: 


1) 向 include 文 件 中 添加 新 节点 的 网 络 地 址 ; 


2) 使 用 以 下 命令 更 新 NameNode 中 具有 连接 权限 的 DataNode 集 


A. 
O: 
hadoop dfsadmin-refreshNodes 


3) 更 新 带 有 新 节点 的 slaves 文 件 ， 以 便 Hadoop 控 制 脚 本 在 执行 后 
续 操作 时 可 以 使 用 更 新 后 的 slaves 文 件 中 的 所 有 市 点; 


4) 启动 新 的 数据 节点 ; 
5) 重新 启动 MapReduce 集 群 ; 
6) 检查 网 页 用 户 界面 是 否 有 新 的 DataNode 和 TaskTracker 。 


需要 注意 的 是 ，HDFS 不 会 自动 将 旧 DataNode 上 的 数据 转移 到 新 
的 DataNode 中 ， 但 我 们 可 以 运行 平衡 器 命令 进行 集群 均衡 。 


2. 撤 销 市 点 


撤销 数据 市 点 时 要 避免 数据 的 丢失 。 在 撤销 前 ， 需 先 通 知 
NameNode 要 撤销 的 节操 ， 然 后 在 撤销 此 市 点 前 将 上 面 的 数据 块 转移 
出 去 。 而 如 果 关 闭 了 正在 运行 的 TaskTracker， 那 么 JobTracker 会 意识 到 
错误 并 将 任务 分 配 到 其 他 TaskTracker 中 去 。 


撤销 节点 过 程 由 exclude 文 件 控 制 : 对 于 HDFS 来 说 ， 可 以 通过 
dfs.hosts.exclude 属 性 来 控制 ， 对 于 MapReduce 来 说 ， 可 以 由 


mapred.hosts.exclude 来 设置 。 


TaskTracker 是 否 可 以 连接 到 JobTracker， 其 规则 很 简单 ， 只 
include 文 件 中 包含 且 exclude 中 不 包含 这 个 TaskTracker， 这 样 
TaskTracker 就 可 以 连接 到 JobTracker 来 执行 任务 。 没 有 定义 的 或 空 的 
include 文 件 意 味 着 所 有 节点 都 在 include 文 件 中 。 


对 于 HDFS 来 说 规则 有 些许 不 同 ， 表 10-3 总 结 了 include 和 exclude 存 
放 贡 点 的 情况 。 对 于 TaskTracker 来 说 ， 一 个 未 定义 的 或 空 的 nclude 文 
件 意味 着 所 有 的 节点 都 包含 其 中 。 


表 10-3 HDFS 的 include 和 exclude 的 文件 优先 级 


include 文件 中 包含 exclude 文件 中 包含 解 f 


m. 
ts 


节点 可 以 连接 


节点 可 以 连接 和 撤销 


BORE SRE BURT A, Te BET LAB PR: 


1) 将 需要 撤销 的 节点 的 网 络 地 址 增加 到 exculde 文 件 中 ， 注 意 ， 
不 要 在 此 时 更 狐 include 文 件 ; 


2) 重新 启动 MapReduce 集 群 来 终止 已 撤销 节点 的 TaskTracker; 
3) 用 以 下 命令 更 狐 具 有 新 的 许可 DataNode 广 点 集 的 NameNode: 


hadoop dfsadmin-refreshNodes 


4) 进入 网 络 用 户 界面 ， 先 检查 已 撤销 的 DataNode 的 管理 状态 是 
否 变 为 “DecommissionIn Progress”， 然 后 把 数据 块 复制 到 集群 的 其 他 


DataNode 中 ; 


5) 当 所 有 DataNode 报 告 其 状态 为 “Decommissioned” 时 
块 也 都 会 被 复制 ， 此 时 可 以 关闭 已 撤销 的 和 点; 


， 所 有 数据 


6) 从 include 中 删除 节点 网 络 地 址 ， 然 后 再 次 运行 命令 : 


hadoop dfsadmin-refreshNodes 


7) 从 slaves 文 件 中 删除 节点 。 


10.3.4 系统 升级 


升级 HDFS 和 MapReduce 集 群 需 要 一 个 合理 的 操作 步骤 ， 这 里 我 们 
主要 讲解 HDFS 的 升级 。 如 采 文 件 系统 升级 后 文件 格局 发 生 了 变化 ， 
那么 升级 时 会 将 文件 系统 的 数据 和 元 数据 迁移 到 与 新 版 本 一 致 的 格式 
上 “。 由 于 任何 涉及 数据 迁移 的 操作 都 会 导致 数据 的 丢失 ， 所 以 必须 保 
证 数据 和 元 数据 都 有 备份 《有 具体 操作 参看 10.3.2) 。 在 进行 升级 时 ， 
可 以 先 在 小 型 集群 中 进行 测试 ， 以 便 正 式 运行 时 可 以 解决 所 有 问题 。 


Hadoop 对 目 身 的 兼容 性 要 求 非常 高 ， 所 有 Hadoop 1.0 之 前 版 本 的 
兼容 性 要 求 最 严格 ， 只 有 来 目 相 同 发 布 版 本 的 组 件 才 能 保证 相互 的 兼 
容 性 ， 这 束 意 味 着 整个 系统 从 守护 进程 到 客户 端 都 要 同时 更 新 ， 还 需 
要 集群 停机 一 段 时 间 。 后 期 发 布 的 版 本 支持 回 深 升 级 ， 人 允许 集群 守护 
进程 分 阶段 升级 ， 以 便 在 更 新 期 间 可 以 运行 客户 端 。 


如 果 文 件 系 统 的 布局 不 改变 ， 那 么 集群 升级 殉 非 常 简 单 了 。 首 移 
在 集群 中 安装 新 的 HDFS 和 MapRedude 〈 同 时 在 客户 端 也 要 安装 ) ， 然 
后 关闭 旧 的 守护 进程 ， 升 级 配置 文件 ， 局 动 新 的 守护 进程 和 客户 端 更 
新 库 。 这 个 过 程 是 可 逆 的 ， 因 此 升级 后 的 版 本 回 滚 到 之 前 版 本 也 很 简 
单 。 


每 次 成 功 升级 后 都 要 执行 一 系列 的 清除 步骤 


1) 从 集群 上 删除 旧 的 安装 和 配置 文件 ; 


2) 修复 代码 和 配置 中 的 每 个 错误 警告 


以 上 讲解 的 系统 升级 非常 简 
需要 更 进一步 的 操作 。 


单 ， 但 是 如 有 果 需 要 升级 文件 系统 ， 束 


版 本 ， 那 么 NameNode 束 不 会 正常 运行 。NameNode 的 日 志 会 产生 以 下 
信息 : 


如 果 使 用 以 上 讲解 方法 进行 升级 ， 并 且 HDFS 是 一 个 不 同 的 布局 


File system image contains an old layout version-15. 
An upgrade to version-18 is required. 


Please restart NameNode with-upgrade option. 


要 想 确 定 是 否 需 要 升级 文件 系统 ， 最 好 的 办 法 就 古 在 一 个 小 集群 
上 进行 测试 。 


HDFS 升 级 将 复制 以 前 版 本 的 元 数据 和 数据 。 升 级 并 不 需要 两 倍 
的 集群 存储 空间 ， 因 为 DataNode 使 用 人 硬 链接 来 体 留 对 同一 个 数据 块 的 
两 个 引用 ， 这 样 束 可 以 在 需要 的 时 候 轻 松 实现 回 深 到 以 前 版 本 的 文件 
系统 。 


需要 注意 的 是 ， 升 级 后 只 能 保留 前 一 个 版 本 的 文件 系统 ， 而 不 能 
回 深 到 多 个 文件 系统 ， 因 此 执行 男 一 个 对 HDFS 的 升级 需要 删除 以 前 


的 版 本 ， 这 个 过 程 被 称 为 确定 更 新 (finalizing the upgrade) 。 一 旦 更 
新 被 确定 ， 那 HDFS 就 不 会 回 滚 到 以 前 的 版 本 了 。 


需要 说 明 的 是 ， 只 有 可 以 正常 运作 的 健康 的 系统 才能 被 正确 升 
级 。 在 进行 升级 之 前 ， 必 须 进 行 一 个 全 面 的 fsck 操 a 作 。 为 防止 意外 ， 
可 以 将 系统 中 的 所 有 文件 及 块 的 列表 (fsck 的 输出 ) 进行 备份 。 这 样 
就 可 以 在 升级 后 将 运行 的 输出 与 之 对 比 ， 检 测 是 否 全 部 正确 升级 ， 有 
没有 数据 丢失 。 


还 需要 注意 ， 在 升级 之 前 要 删除 临时 文件 ， 包 括 HDFS 上 
MapReduce 系 统 目 录 中 的 文件 和 本 地 临时 文件 。 


完成 以 上 这 些 工作 后 束 可 以 进行 集群 的 升级 和 文件 系统 的 迁移 
了 ， 具 体 步 又 如 下 : 


1) 确保 之 前 的 升级 操作 全 部 完成 ， 不 会 影响 此 次 升级 ; 
2) 关闭 MapReduce， 终 止 TaskTracker 上 的 所 有 任务 进程 ; 
3) 关闭 HDFS 并 备份 NameNode 目 录 ; 


4) 在 集群 和 客户 端 上 安装 新 版 本 的 Hadoop HDFS 和 同步 的 
MapReduce; 


5) 使 用 -upgrade 选 项 启动 HDFS; 


7) 在 HDFS 上 进行 健康 检查 ; 
8) 启动 MapReduce; 


9) 回 深 或 确定 升级 。 


在 运行 升级 程序 时 ， 最 好 能 从 PATH 环境 变量 中 删除 Hadoop 脚 
本 ， 这 样 可 以 避免 运行 不 确定 版 本 的 脚本 程序 。 在 安装 目录 定义 两 个 
环境 变量 是 很 方便 的 ， 在 以 下 指令 中 已 经 定义 了 
OLD_HADOOP _ INSTALL 和 NEW_HADOOP_INSTALL ° ÆU EHIK 
5) 中 我 们 要 运行 以 下 指令 : 


$NEW_HADOOP_INSTALL/bin/start-dfs.sh-upgrade 


NameNode 升 级 它 的 元 数据 ， 并 将 以 前 的 版 本 放 入 新 建 的 目 孙 


previous 中 : 


${dfs.name.dir}/current/VERSION 
/edits 

/fsimage 

/fstime 

/previous/VERSION 

/edits 

/fsimage 

/fstime 


采用 类 似 的 方式 ，DataNode 升 级 它 的 存储 目录 ， 将 旧 的 目录 复制 
到 jprevious 目 隶 中 去 。 


升级 过 程 需要 一 段 时 间 才 能 完成 。 可 以 使 用 dfsadmin 命 令 来 检查 
升级 的 进度 。 升 级 的 事件 同样 会 记录 在 守护 进程 的 日 志文 件 中 。 在 步 
We) 中 执行 以 下 命令 ， 


$NEW_HADOOP_INSTALL/bin/hadoop dfsadmin-upgradeProgress status 
Upgrade for version-18 has been completed. 
Upgrade is not finalized. 


以 上 代码 表明 升级 已 经 完成 。 在 这 个 阶段 必须 在 文件 系统 上 进行 
一 些 健 康 检查 〈 即 步骤 7) ， 比 如 使 用 fsck 进 行文 件 和 块 的 检查 ) o 
进行 检查 (只 读 模式 ) 时 ， 可 以 让 HDFS 进 入 安全 模式 ， 以 防止 其 他 
检查 对 文件 进行 更 改 。 


步骤 9) 是 可 选 操作 ， 如 果 在 升级 后 发 现 问题 ， 则 可 以 回 滚 到 之 前 
版 本 。 


Bt, RAST PEAS: 


$NEW_HADOOP_INSTALL/bin/stop-dfs.sh 


Ija, H-rollbackt ma oy |AARASHYHDES: 


$OLD_HADOOP_INSTALL/bin/start-dfs.sh-rollback 


ix S AEH NameNode#ilDataNode LA Bil HY HAR E 11] SB 
存储 目录 下 的 内 容 ， 文 件 系 统 立即 返回 原始 状态 。 


如 有 果 对 新 升级 的 版 本 感到 满意 ， 那 么 可 以 执行 确定 升级 〈“ 即 步 又 
9) ， 可 选 ) ， 并 删除 以 前 的 存储 目录 。 需 要 注意 的 是 在 升级 确定 后 ， 
束 不 能 回 滚 到 之 前 的 版 本 了 。 


需要 执行 以 下 步 又 ， 才 能 进行 另 一 次 升级 : 


$NEW_HADOOP_INSTALL/bin/hadoop dfsadmin-fnalizeUpgrade 
$NEW_HADOOP_INSTALL/bin/hadoop dfsadmin-upgradeProgress status 
There are no upgrades in progress. 


至 此 ，HDFS 升 级 到 了 最 新 版 本 。 


10.4 本 草 小 结 
本 章 重 点 介绍 了 Hadoop 监 控 和 管理 方面 的 相关 内 容 。 


首先 ， 从 HDFS 文 件 结构 开始 进行 相关 介绍 。HDFS 作 为 Hadoop 的 
核心 分 布 式 文件 系统 ， 其 许多 应 用 都 构建 在 其 核心 分 布 式 文件 系统 
上 。 对 于 作为 基础 架构 的 核心 分 布 式 文件 系统 ， 管 理 员 要 给 予 更 多 的 
关注 。 

其 次 ， 本 章 从 整体 上 对 Hadoop 的 监控 机 制 和 相关 的 监控 工具 进行 


了 分 析 ， 着 重 分 析 了 Hadoop 监 控 的 支持 基础 、 日 志和 度量 ， 同 时 提出 
了 诸多 系统 监控 的 解决 方案 ， 并 着 重 介绍 了 Ganglia 监 探 软件 。 


最 后 ， 本 章 对 实际 应 用 中 经 常 遇 到 的 维护 要 求 ， 比 如 增删 节点 、 
数据 备份 、 系 统 升级 等 进行 了 介绍 。 
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Hive 是 Hadoop 中 的 一 个 重要 子 项 目 ， 它 利用 的 是 MapReduce 编 程 
技术 ， 实 现 了 部 分 SQL 语句 ， 提 供 了 类 SQL 的 编程 接口 。Hive 的 出 现 
极 大 地 推进 了 Hadoop 在 数据 仓库 方面 的 发 展 。 事 实 上 ， 目 前 业界 仍 在 
对 何谓 大 规模 数据 分 析 最 佳 方法 进行 着 辩论 。 由 于 传统 应 用 的 惯性 ， 
业 穷 保守 派 依然 青睐 于 关系 型 数据 库 和 SQL 语 言 。 而 在 学 术 界 ， 互 联 
网 阵营 则 更 集中 于 支持 MapReduce 的 开发 模式 。 本 革 我 们 将 对 基于 
Hive 的 数据 仓库 解决 方案 进行 介绍 。 


11.1 Hive 简 介 


Hive 是 一 个 基于 Hadoop 文 件 系 统 之 上 的 数据 仓库 架构 。 它 为 数据 
仓库 的 管理 提供 了 许多 功能 : 数据 ETL (抽取 、 转 换 和 加 载 ) 工具 、 
数据 存储 管理 和 大 型 数据 集 的 查询 和 分 析 能 力 。 同 时 Hive 定 义 了 类 
SQL 的 语言 一 Hive QL ° Hive QL 人 允许 用 户 进行 和 SQL 相似 的 操作 ， 还 
人 允许 开发 人 员 方 便 地 使 用 Mapper 和 Reducer 探 作 ， 这 对 MapReduce 框 架 
是 一 个 强 有 力 的 支持 。 


由 于 Hadoop 走 批量 处 理 系统 ， 任 务 是 高 延 玉 性 的 ， 在 任务 提交 和 
处 理 过 程 中 会 消耗 一 些 时 间 成 本 。 同 样 ， 即 使 Hive 处 理 的 数据 集 非 常 
小 《比如 几 百 MB) ， 在 执行 时 也 会 出 现 延 迟 现 象 。 这 样 ，Hive 的 性 能 
就 不 可 能 很 好 地 和 传统 的 Oracle 数 据 库 进 行 比 较 了 “。Hive 不 提供 数据 
排序 和 查询 cache 功 能 ， 不 提供 在 线 事务 处 理 ， 也 不 提供 实时 的 查询 和 
记录 级 的 更 新 ， 但 Hive 能 更 好 地 处 理 不 变 的 大 规模 数据 集 (例如 网 络 
日 志 ) 上 的 批量 任务 。 所 以 ，Hive 最 大 的 价值 是 可 扩展 性 (基于 
Hadoop 平 台 ， 可 以 自动 适应 机 器 数目 和 数据 量 的 动态 变化 ) 、 可 延展 
性 〈 结 合 MapReduce 和 用 户 定义 的 函数 库 ) 、 良 好 的 容错 性 和 低 约束 
的 数据 输入 格式 。 


Hive 本 身 建 立 在 Hadoop 的 体系 架构 上 ， 提 供 了 一 个 SQL 的 解析 过 
程 ， 并 从 外 部 接口 中 获取 命令 ， 以 对 用 户 指 令 进行 解析 。Hive 可 将 外 


部 命令 解析 成 一 个 Map-Reduce 可 执行 计划 ， 并 按照 该 计划 生成 
MapReduce 任 务 后 交 给 Hadoop 集 群 进行 处 理 ，Hive 的 体系 结构 如 图 11- 
1 所 孙 * 


11.1.1 ” Hive 的 数据 存储 


Hive 的 存储 是 建立 在 Hadoop 文 件 系 统 之 上 的 。Hive 本 喘 没 有 专门 
的 数据 存储 格式 ， 也 不 能 为 数据 建立 索引 ， 因 此 用 户 可 以 非常 目 由 地 
组 织 Hive 中 的 表 ， 只 需要 在 创建 表 的 时 候 告诉 Hive 数 据 中 的 列 分 隔 符 
和 行 分 隔 符 束 可 以 解析 数据 了 。 


Hive 中 主要 包含 四 类 数据 模型 : Fe (Table) 、 外 部 表 (External 
Table) 、 分 区 (Partition) 和 桶 (Bucket) ° 


Hive 中 的 表 和 数据 库 中 的 表 在 概念 上 是 类 似 的 ， 在 Hive 中 每 个 表 
都 有 一 个 对 应 的 存储 目录 。 例 如 ， 一 个 表 htable 在 HDFS 中 的 路 径 
为 /datawarehouse/htable， 其 中 ，/datawarehouse 是 在 hive-site.xml 配 置 文 
件 中 由 ${hive.metastore.warehouse.dir} 指 定 的 数据 仓库 的 目录 ， 所 有 的 
表 数 据 (除了 外 部 表 ) 都 保存 在 这 个 目录 中 。 


Hive 中 的 每 个 分 区 都 对 应 数据 库 中 相应 分 区 列 的 一 个 索引 ， 但 是 
分 区 的 组 织 方 式 和 传统 关系 型 数据 库 不 同 。 在 Hive 中 ， 表 中 的 一 个 
区 对 应 表 下 的 一 个 目录 ， 所 有 分 区 的 数据 部 存储 在 对 应 的 目 隶 中。 


其 
分 


例如 ，htable 表 中 包含 的 ds 和 city 两 个 分 区 ， 分 别 对 应 两 个 目录 : 对 应 
ds=20100301，city=Beijing 的 HDFS 子 目录 

为 /datawarehouse/htable/ds=20100301/city=Beijing; 对 应 ds=20100301， 
city=Shanghai 的 HDFS 子 目录 

为 /datawarehouse/htable/ds=20100301/city=Shanghai ° 


命令 行 接口 IWRC -ONRE 


了 驱动 
1 编译 器 ， 优 北 
ae. thi: 


JehTracker 


Hadoop 


11-1 Hive 的 体系 结构 


桶 在 对 指定 列 进行 哈 希 (Hash) 计算 时 ， 会 根据 哈 希 值 切 分 数 
据 ， 使 每 个 桶 对 应 一 个 文件 。 例 如 ， 将 属性 列 user 列 分 散 到 32 个 桶 
中 ， 移 要 对 user 列 的 值 进 行 hash 计 算 ， 对 应 哈 硕 值 为 0 的 桶 写 入 HDFS 
的 目录 为 /datawarehouse/htable/ds=20100301/city=Beijing/part-00000; 
对 应 哈 希 值 为 10 的 HDFS 目 录 


为 /datawarehouse/htable/ds=20100301/city=Beijing/part-00010， 依 此 类 
推 。 


外 部 表 指 向 已 经 在 HDFS 中 存在 的 数据 ， 也 可 以 创建 分 区 。 它 和 
表 在 元 数据 的 组 织 上 十 相同 的 ， 而 实际 数据 的 存储 则 存在 较 大 郑 异 ， 
主要 表现 在 以 下 两 点 上 。 


1) 创建 表 的 操作 包含 两 个 步 又: 表 创建 过 程 和 数据 加 载 步骤 (这 
两 个 过 程 可 以 在 同一 语句 中 完成 ) 。 在 数据 加 载 过 程 中 ， 实 际 数据 会 
移动 到 数据 仓库 目录 中 ， 之 后 的 数据 访问 将 会 直接 在 数据 仓库 目录 中 
完成 。 在 删除 表 时 ， 表 中 的 数据 和 元 数据 将 会 被 同时 删除 。 


2) 外 部 表 的 创建 只 有 一 个 步 又 ， 加 载 数 据 和 创建 表 同 时 完成 ， 实 
际 数 据 存 储 在 创建 语句 LOCATION 指 定 的 HDFS 路 径 中 ， 并 不 会 移动 
到 数据 仓库 目录 中 。 如 有 果 删 除 一 个 外 部 表 ， 仅 删除 元 数据 ， 表 中 的 数 
据 不 会 被 删除 。 


11.1.2 ”Hive 的 元 数据 存储 


由 于 Hive 的 元 数据 可 能 要 面临 不 断 地 更 新 、 修 改 和 读 取 操作 ， 所 
以 它 显然 不 适合 使 用 Hadoop 文 件 系统 进行 存储 。 目 前 Hive 将 元 数据 存 
储 在 RDBMS 中 ， 比 如 存储 在 MySQL、Derby 中 。Hive 有 三 种 模式 可 以 
连接 到 Derby 数 据 库 : 


1) Single User Mode， 利 用 此 模式 连接 到 一 个 In-memory (内 存 ) 
数据 库 Derby， 一 般 用 于 单元 测试 ; 


2) Multi User Mode， 通 过 网 络 连 接 到 一 个 数据 库 中 ， 是 最 常 使 用 
的 模式 ; 


3) Remote Server Mode， 用 于 非 Java 客 户 端 访问 元 数据 库 ， 在 服 
务 器 端 启 动 一 个 MetaStoreServer， 在 客户 端 利用 Thrift 协 议 通 过 
MetaStoreServer 访 问 元 数据 库 。 


关于 Hive 元 数据 的 使 用 配置 ， 我 们 将 在 11.5 节 “Hive 的 JDBC 接 


口 ” 中 进行 详细 介绍 。 


11.2 Hive 的 基本 操作 


本 下 中 我 们 将 介绍 Hive 的 基本 操作 ， 包 括 Hive 在 集群 上 的 安装 配 
置 及 Hive 的 Web UI 的 使 用 。 


11.2.1 在 集群 上 安装 Hive 


从 图 11-1 中 可 以 看 出 ，Hive 可 以 理解 为 在 Hadoop 和 HDFS 之 上 为 用 
户 封 装 一 层 便于 用 户 使 用 的 接口 ， 该 接口 有 丰富 的 样式 ， 包 括 命 令 终 
ïn ` Web UI 及 JDBC/ODBC 等 。 因 此 Hive 的 安装 需要 依赖 Hadoop。 下 
面 我 们 具体 介绍 如 何 下 载 、 安 装 和 配置 Hive 。 


(1) 先决 条 件 


要 求 必须 已 经 安装 完成 Hadoop， 当 前 最 新 版 本 为 1.0.1。Hadoop 的 
安装 我 们 已 经 在 前 面 章节 中 详细 讲 过 (参见 第 2 章 “Hadoop 的 安装 与 配 
m), AEDH o 


(2) 下 载 Hive 安 装 包 


当前 Hive 的 最 新 版 本 为 0.8.1， 读 者 可 通过 以 下 命令 下 载 Hive 安 装 
包 .: 


wget http: //labs.renren.com/apache-mirror/hive/hive-0.8.1/hive- 
@.8.1.tar.gz 

tar xzf hive-0.8.1.tar.gz 

cd hive-0.8.1 
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(http: //www.apache.org/dyn/closer.cgi/hive) 及 相应 的 版 本 进行 下 
载 。 


(3) 配置 系统 环境 变量 /etc/profile 或 ~/.bashrc 


该 步 又 只 是 为 了 便于 大 家 操作 ， 对 于 Hive 的 安装 并 不 是 必须 的 。 
如 下 所 示 ， 在 PATH 中 加 入 Hive 的 bn 及 conf 路 径 : 


#Config Hive 
export HIVE_HOME=/home/hadoop/hadoop-1.0.1/hive-0.8.1 
export PATH=$HIVE_HOME/bin: $HIVE_HOME/conf: $PATH 


在 当前 终端 输入 “source/etc/profile” 使 环境 变量 对 当前 终端 有 效 。 
(4) 修改 Hive 配 置 文档 


若 不 进行 修改 ，Hive 将 使 用 默认 的 配置 文档 。 一 些 高 级 用 户 希 望 
对 其 进行 配置 。$HIVE_HOME/conf 对 应 的 是 Hive 的 配置 文档 路 径 。 该 
路 径 下 的 $HIVE_HOME/conf/hive-site.xml 对 应 的 是 Hive 工 程 的 配置 文 
档 ， 默 认 该 配置 文档 并 不 存在 ， 需 要 我 们 手动 创建 。 如 下 所 示 : 


Cd$HIVE_HOME/conf 


cp hive-default.xml.template hive-site. xml 


hive-default. xml.template 为 系统 提供 给 的 配置 文档 模板 ， 其 中 填 
写 的 是 默认 的 配置 参数 。Hive 的 主要 配置 项 如 下 : 


hive. metastore.warehouse.dir， 该 参数 指定 的 是 Hive 的 数据 存储 目 
孙 ， 指 定 的 是 EDFS 上 的 位 置 ， 默 认 值 为 /aservhive/warehouse ° 


hive. exec.scratchdir， 该 参数 指定 的 是 Hive 的 数据 临时 文件 日 好， 


默认 位 置 为 /tmp/hive-${user.name}。 


连接 数据 库 配 置 。 


在 11.1.2 节 中 已 经 讲 过 ，Hive 需 要 将 元 数据 存储 在 RDBMS 中 ， 这 
对 于 Hive 的 运行 是 非常 重要 的 。 在 默认 情况 下 ，Hive 已 经 为 我 们 配置 
wwe。 的 连接 参数 ， 并 且 集 成 了 Derby 数 据 库 及 连接 驱动 jar 
o 下 面 为 连接 Derby 数 据 库 的 关键 配置 : 


<?xml version="1.0"?> 

<?xml-stylesheet type="text/xsl"href="configuration.xsl"?> 

<configuration> 

<property> 

<name> javax.jdo.option.ConnectionURL< /name > 

<value>jdbc: derby: ; databaseName=metastore_db; create=true 
</value> 

<description> JDBC connect string for a JDBC metastore 
</description> 

</property> 

<property> 

<name> javax.jdo.option.ConnectionDriverName < /name > 

<value>org.apache.derby.jdbc.EmbeddedDriver </value> 


<description>Driver class name for a JDBC metastore 
</description> 

</property> 

<property> 

<name> javax.jdo.option.ConnectionUserName < /name > 

<value >APP</value> 

<description>username to use against metastore database 
</description> 

</property> 

<property> 

<name> javax.jdo.option.ConnectionPassword< /name > 

<value >mine</value > 

<description>password to use against metastore database 
</description> 

</property> 


</configuration> 


其 中 “javax.jdo.option.ConnectionURL” 人 参数 指定 的 是 Hive 连 接 数 据 
库 的 连接 字符 串 , “javax.jdo.option.ConnectionDriverName” 参 数 指定 的 
是 驱动 的 类 入 口 名 称 ，“javax.jdo.option.ConnectionUserName” 参 数 
和 “javax.jdo.option.ConnectionPassword” 参 数 指 定 的 是 数据 库 的 用 户 名 
和 和 密码。 使 用 Derby 数 据 库 需 要 确定 在 $SHITVE_HOME/ib/ 目 录 下 有 
Derby 的 数据 库 驱 动 。Hive0.8.1 在 默认 情况 下 为 我 们 提供 了 该 驱动 包 : 
derby-10.4.2.0.jar ° 


在 上 述 配 置 完成 后 ， 直 接 运 行 $4HIVE_HOME/bin/hive 即 可 启动 连 
接 Hive， 如 下 所 示 : 


./bin/hive 


Logging initialized using configuration in jar: 
file: /home/hadoop/hadoop-1.0.1/hive - 
0.8.1/lib/hive-common-0.8.1.jar! /hive-log4j.properties 
Hive history 
file=/tmp/hadoop/hive_job_log_hadoop_201205151824 37118280.txt 
hive > 


该 方式 使 用 的 是 命令 行 的 方式 (command line, cli) 连接 Hive 进 行 
操作 。 


男 外 ，Hive 还 提供 了 丰富 的 Wiki 文 档 ， 读 者 可 以 参考 以 下 链接 中 
的 内 容 。 


Hive 的 Wiki 页 面 : http: //wiki.apache.org/hadoop/Hive ° 


Hive 入 门 指 丙 : 
http: //wiki.apache.org/hadoop/Hive/GettingStarted ° 


HQL 查 询 语言 指南 : http: //wiki.apache.org/hadoop/Hive/HiveQL ° 
演示 文稿 : http: //wiki.apache.org/hadoop/Hive/Presentations ° 


由 于 Hive 本 身 还 处 在 不 断 的 发 展 中 ， 很 多 时 候 文档 更 新 的 速度 还 
赶不上 Hive 本 身 的 更 新 速度 ， 因 此 ， 如 果 大 家 想 了 解 Hive 最 新 的 发 展 
动态 或 想 与 研究 者 进行 交流 ， 那 么 可 以 加 入 Hive 的 邮件 列表 ， 用 户 : 
hive-userQ@hadoop.apache.org， 开 发 者 : hive-dev@hadoop.apache.org ° 


11.2.2 ”配置 MySQL 存 储 Hive 元 数据 


Hive 提 供 了 多 种 RDBMS 来 存储 Hive 的 元 数据 ， 包 括 Derby、 


MySQL 等 。 相 信 有 很 多 用 户 对 MySQL 还 是 比较 熟悉 的 。 因 此 ， 本 节 
我 们 将 Hive 默 认 的 元 数据 存储 容器 由 Derby 修 改 为 MySQL 。 该 过 程 包 


括 两 个 步骤 : Hive 的 配置 及 MySQL 的 配置 。 下 面 介 绍 具体 操作 。 
(1) Hive 的 配置 


首先 需要 对 Hive 的 配置 文档 进行 修改 ， 即 
$HIVE_HOME/conf/hive-site.xml。 与 Derby 类 似 ， 首 先 需 要 对 连接 字 
串 、 驱 动 、 数 据 库 用 户 名 及 密码 参数 进行 配置 ， 如 下 所 示 : 


<?xml version="1.0"?> 

<?xml-stylesheet type="text/xsl"href="configuration.xs1"?> 

<configuration> 

<property> 

<name >hive.metastore.local< /name> 

<value >true</value> 

</property> 

<property> 

<name> javax.jdo.option.ConnectionURL < /name > 

<value>jdbc: mysql: //localhost: 3306/hive? 
createDatabaseIfNotExist=true</value> 

</property> 

<property> 

<name> javax.jdo.option.ConnectionDriverName < /name > 

<value>com.mysql.jdbc.Driver </value> 

</property> 

<property> 

<name> javax.jdo.option.ConnectionUserName < /name > 


符 


<value >hive</value > 

</property> 

<property> 

<name> javax.jdo.option.ConnectionPassword< /name > 
<value >hive</value > 

</property> 


</configuration> 


另外 ， 需 要 下 载 MySQL 的 JDBC 驱 动 包 ， 这 里 使 用 的 是 “mysql- 
connector-java-5.1.11-bin.jar”， 将 其 复制 到 $HIVE_HOME/lib 目 孙 下 即 
可 。 


(2) MySQL 的 配置 
首先 需要 安装 MySQL ， 使 用 如 下 命令 


sudo apt-get install mysql-server 


执行 该 命令 将 自动 下 载 并 安装 MySQL1 11。 此 外 ， 还 可 以 下 载 
MySQL 安 装 包 进 行 安 装 ， 此 部 分 内 容 不 是 本 书 的 重点 ， 大 家 可 以 自行 
查阅 相关 资料 。 


MySQL 安 装 完 成 后 ， 只 拥有 root 用 户 。 下 面 我 们 创建 Hive 系 统 的 
用 户 权 限 ， 步 又 如 下 所 示 : 


//1. 创 建 用 户 

CREATE USER'hive'@'%'IDENTIFIED BY'hive'; 

//2 .赋予 权限 

GRANT ALL PRIVILEGES ON*.*TO'hive'@'%'WITH GRANT OPTION; 
//3 .强制 写 出 


flush privileges; 


此 外 ， 为 了 使 远程 用 户 可 以 访问 MySQL ， 需 要 修 
改 “/etc/mysql/my.cnf” 文 件 ， 将 bind-address 一 行 注释 挥 ， 该 参数 绑 定 本 
地 用 户 访 问 。 


如 下 所 示 : 


#Instead of skip-networking the default is now to listen only on 
#localhost which is more compatible and is not less secure. 
#bind-address=127.0.0.1 


配置 完成 后 ， 使 用 如 下 命令 重 局 MYSQL 数据 库 : 
sudo/etc/ini.d/mysql restart 
上 述 配置 完成 后 便 可 以 像 之 前 一 样 运行 Hive 了 。 


[1] 在 不 同 版 本 的 Linux 中 该 命令 有 一 定 的 区 别 ， 要 视 具体 的 Linux 版 本 


而 定 。 


11.2.3 配置 Hive 


安 狠 好 Hive 后 ， 束 可 以 进行 位 单 的 数据 操作 了 。 在 实际 应 用 中 ， 
不 可 避免 地 要 进行 参数 的 配置 和 调 优 ， 本 市 我 们 将 对 Hive 参 数 的 设置 


进行 介绍 。 


上 首先， 在 进行 操作 前 要 确保 目 邓 权限 配置 正确 : 将 /imp 目录 配置 
成 所 有 有 用户 都 有 write 权 限 ， 表 所 对 应 目录 的 owner 必 须 是 Hive 局 动用 
Pis 


其 次 ， 可 以 通过 调整 Hive 的 参数 来 调 优 HQL 代 码 的 执行 效率 或 帮 
助 管理 员 进 行 定 位 。 参 数 设置 可 以 通过 配置 义 件 、 命 令 行 参数 或 参数 
声明 的 方式 进行 。 下 面具 体 进 行 介绍 。 


1. 配 置 文 件 

Hive 的 配置 文件 包括 : 

用 户 自 定义 配置 文件 ， 即 $HIVE_CONF_DIR/hive-site.xml; 
默认 配置 文件 ， 妈 $HIVE_CONF_DIR/hive-default.xml ° 


要 注意 的 是 ， 用 户 目 定义 配置 会 覆盖 默认 配置 。 另 外 ，Hive 也 会 
读 入 Hadoop 的 配置 ， 因 为 Hive 是 作为 Hadoop 的 客户 端 局 动 的 。 


2. 运 行 时 配置 


当 运 行 Hive QL 时 可 以 进行 参数 声明 。Hive 的 查询 可 通过 执行 
MapReduce 任 务 来 实现 ， 而 有 些 查 询 可 以 通过 控制 Hadoop 的 配置 参数 
来 实现 。 在 命令 行 接 口 (CLI 中 可 以 通过 SET 命令 来 设置 参数 ， 例 
如 : 


hive>SET mapred.job.tracker=myhost.mycompany.com: 50030 
hive>set mapred.reduce.tasks=100; 
hive >SET-v 


型 


通过 SET-v 命 令 可 以 查看 当前 设 定 的 所 有 信息 。 需 要 指出 的 是 ， 通 
过 CLI 的 SET 命令 设 定 的 作用 域 是 Session 级 的 ， 只 对 本 次 操作 有 作用 。 
此 外 ，SerDe 参 数 必 须 写 在 建 表 语句 中 。 例 如 : 


create table if not exists t _ Student ( 
name string 


ROW FORMAT SERDE 
‘org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
WITH SERDEPROPERTIES ( 

'field.delim'='\t', 

‘escape.delim'='\\', 

‘serialization.null.format'='' 

) STORED AS TEXTFILE; 


类 似 serialization.null.format 这 样 的 参数 ， 必 须 和 某 个 表 或 分 区 关 
联 。 在 DDL 外 部 声明 不 起 作用 。 


3. 设 置 本 地 模式 


产生 MapReduce 任 务 ， 这 些 


对 于 大 多 数 查 询 Query, Hive 编 译 器 会 
任务 会 被 提交 到 MapReduce 集 群 ， 这 些 集 群 可 以 用 参数 


mapred.job.tracker 指 明 ° 


需要 说 明 的 是 ，Hadoop 文 持 在 本 地 或 集群 中 运行 Hive 提 交 的 碍 
询 ， 这 对 小 数据 集 查 询 的 运行 是 非常 有 用 的 ， 可 以 避免 将 任务 分 布 到 
大 型 集 
HDFS 中 的 文件 访问 对 用 户 来 说 是 透明 的 。 相 反 ， 如 采 是 大 数据 集 的 


查询 ， 那 么 需要 设 定 将 Hive 的 查询 交 给 集群 


群 中 而 降低 效率 。 在 将 MapReduce 任 务 提交 给 Hadoop 之 后 ， 


运行 ， 这 样 束 可 以 利用 集 
群 的 并 行 性 来 提高 效率 。 我 们 可 以 通过 以 下 参数 设 定 Hive 碍 询 在 本 地 


hive>SET mapred.job.tracker=local; 


最 新 的 Hive 版 本 都 文 持 在 本 地 目 动 运行 MapReduce 任 务 : 


hive>SET hive.exec.mode.local.auto=false; 


可 以 看 到 该 属性 默认 是 关闭 的 。 如 果 设 定 为 开启 (enable) , 
Hive 就 会 完 分 析 查 询 中 的 每 个 MapReduce 任 务 ， 当 任务 的 输入 数据 规 
模 低 于 Hive.exec.mode.local.auto.inputb-ytes.max 属 性 值 (默认 为 


128MB) ， 并 且 全 部 的 Map 数 少 于 hive.exec.mode.local.auto.tasks.max 


的 属性 值 (BRAH) ， 全 部 的 Reduce 任 务 数 为 1 或 0 时 ， 任 务 会 自动 选 
择 在 本 地 模式 下 运行 。 

4.Error Logs 错 误 日 志 

Hive 使 用 log4j 记 录 日 志 。 在 默认 情况 下 ， 日 志文 件 的 记录 等 级 是 
WARN ( 即 存储 紧急 程度 为 WARN 及 以 上 的 错误 信息 ) ， 存 储 


在 /tmp/{user.n-ame}/hive.log 文 件 夹 下 。 如 果 用 户 想 要 在 终端 看 到 日 志 
内 容 ， 则 可 以 通过 设置 以 下 参数 达到 目的 : 


bin/hive-hiveconf hive.root.logger=INFO, console 


同样 ， 用 户 也 可 以 改变 日 志 记 录 等 级 : 


bin/hive-hiveconf hive.root.logger=INFO, DRFA 


Hive 在 Hadoop 执 行 阶段 的 日 志 由 Hadoop 配 置 文件 配置 。 通 常 来 
说 ，Hadoop 会 对 每 个 Map 和 Reduce 任 务 对 应 的 执行 节点 生成 一 个 日 志 
文件 。 这 个 日 志文 件 可 以 通过 JobTracker 的 Web UI 获得 。 错 误 日 志 对 
调试 错误 非常 有 用 ， 当 运行 过 程 中 遇 到 Bug 时 可 以 向 hive-d- 


eVG@hadoop.apache.org 提 区 ° 


11.3 Hive QL 详 解 


11.3.1 数据 定义 (DDL) 操作 


1. 创 建 表 
下 面 是 在 Hive 中 创建 表 (CREATE) 的 语法 : 


CREATE[EXTERNAL]TABLE[IF NOT EXISTS]table_name 

[ (col_name data_type[COMMENT col_comment], ....... ) ] 

[COMMENT table_comment] 

[PARTITIONED BY (col_name data_type[col_comment], col_name 
data_type[ COMMENT 

col_comment], .....) ] 

[CLUSTERED BY (col_name, col name, ....... ) [SORTED BY 

(col_name, ......) JINTO num_ 

buckets BUCKETS] 

[ROW FORMAT row_format ] 

[STORED AS file_format ] 

[LOCATION hdfs_path] 

[AS select_statement] (Note: this feature is only available on 
the latest trunk 

or versions higher than 0.4.0.) 

CREATE[EXTERNAL]TABLE[IF NOT EXISTS]table_name 

LIKE existing _table_name 

[LOCATION hdfs_path] 

data_type 

: primitive_type 

|array_type 

|map_type 

primitive_type 

: TINYINT 

| SMALLINT 

| INT 

| BIGINT 

| BOOLEAN 

| FLOAT 


| DOUBLE 

| STRING 

array_type 

: ARRAY <primitive_type> 

map_type 

: MAP<primitive_type, primitive_type> 

row_format 

: DELIMITED[FIELDS TERMINATED BY char][COLLECTION ITEMS 
TERMINATED BY char] 

[MAP KEYS TERMINATED BY char ] 

|SERDE serde_name[WITH SERDEPROPERTIES 
property_name=property_value, property_ 

name=property_value, ...... ] 

file_format: 

: SEQUENCEFILE 

| TEXTFILE 

| INPUTFORMAT input_format_classname OUTPUTFORMAT 
output_format_classname 


下 面 进 行 相关 的 说 明 。 


CREATE TABLE， 创 建 一 个 指定 名 字 的 表 。 如 果 相 同名 字 的 表 已 
经 存在 ， 则 抛 出 异常 ， 用 户 可 以 用 IF NOT EXISTER AAA 


PLH, 


吊 O 


EXTERNAL 天 键 字 ， 创 建 一 个 外 部 表 ， 在 创建 表 的 同时 指定 一 个 
指向 实际 数据 的 路 径 (LOCATION) 。 在 Hive 中 创建 内 部 表 时 ， 会 将 
数据 移动 到 数据 仓库 指向 的 路 径 ， 在 创建 外 部 表 时 ， 仅 记录 数据 所 在 
的 路 径 ， 不 对 数据 的 位 置 做 任何 改变 。 当 删除 表 时 ， 内 部 表 的 元 数据 
和 数据 会 一 起 被 删除 ， 而 在 删除 外 部 表 时 只 删除 元 数据 ， 不 删除 数 
据 。 


LIKE 格 式 修饰 的 CREATE TABLE 命 令 允 许 复 制 一 个 已 存在 表 的 定 
义 ， 而 不 复制 它 的 数据 内 容 。 


这 里 还 需要 说 明 的 是 ， 用 户 可 以 使 用 上 自 定制 的 SerDe 或 自 带 的 
SerDe 创 建 表 。SerDe 是 Serialize/Deserilize 的 简称 ， 用 于 序列 化 和 反 序 
列 化 。 在 Hive 中 ， 序 列 化 和 反 序 列 化 即 在 keyvalue 和 hive table 的 每 个 
列 值 之 间 的 转化 。 如 果 没 有 指定 ROW FORMAT 或 ROW FORMAT 
DELIMITE-D， 创 建 表 就 使 用 上 自 带 的 SerDe。 如 果 使 用 上 自 带 的 SerDe， 
则 必须 指定 字段 列表 。 关 于 字段 类 型 ， 可 参考 用 户 指南 的 类 型 部 分 。 
定制 的 SerDe 字 段 列表 可 以 是 指定 的 ， 但 是 Hive 将 通过 查询 SerDe 决 定 
实际 的 字段 列表 。 


如 果 需 要 将 数据 存储 为 纯 文本 文件 ， 那 么 要 使 用 STORED AS 
TEXTFILE。 如 果 数 据 需 要 压缩 ， 则 要 使 用 STORED AS 
SEQUENCEFILE。INPUTFORMAT 和 OUTPUTFORMAT 定 义 一 个 与 
InputFormat 和 OutputFormat 类 相对 应 的 名 字 作 为 一 个 字符 串 ， 例 如 ， 
将 “org.apache.hadoop.hive.contrib.fileformat.base64” 定 义 


为 “Base64TextInputFormat”。 


Hive 还 支持 建立 带 有 分 区 (Partition) 的 表 。 有 分 区 的 表 可 以 在 创 
建 的 时 候 使 用 PARTITIONED BY 语句 。 一 个 表 可 以 拥有 一 个 或 多 个 分 
区 ， 每 个 分 区 单独 存在 于 一 个 目录 下 。 而 且 ， 表 和 分 区 都 可 以 对 某 个 


列 进行 CLUSTERED BY 操作 ， 将 若干 个 列 放 入 一 个 桶 (Bucket) 中 。 
也 可 以 利用 SORT BY 列 来 存储 数据 ， 以 提高 查询 性 能 。 


表 名 和 列 名 不 区 分 大 小 写 ， 但 SerDe 和 属性 名 是 区 分 大 小 写 的 。 表 
和 列 的 注释 分 别 是 以 单 引 号 表示 的 字符 串 。 


下 面 通过 一 组 例子 来 对 CREATE 命 令 进行 介绍 ， 以 加 深 用 户 的 理 
解 。 


ili: 创建 普通 表 


下 面 代 码 将 创建 page_view 表 ， 该 表 包 括 viewTime、userid、 
page_ur] 、referrer_url 和 ip 列 。 


CREATE TABLE page view (viewTime INT, userid BIGINT, 
page_url STRING, referrer_url STRING, 


ip STRING COMMENT'IP Address of the User') 
COMMENT'This is the page view table'; 


例 2: 添加 表 分 区 


下 面 代 码 将 创 ee ， 该 表 所 包含 字段 与 例 1 中 page_view 
表 相同 。 此 外 ， 通 过 Partition 语 句 为 该 表 建 立 分 区 ， 并 用 制 表 符 来 区 分 
同一 行 中 的 不 同 字 段 。 
CREATE TABLE page view (viewTime INT, userid BIGINT, 


page_url STRING, referrer_url STRING, 
ip STRING COMMENT'IP Address of the User') 


COMMENT'This is the page view table' 
PARTITIONED BY (dt STRING, country STRING) 
ROW FORMAT DELIMITED 

FIELDS TERMINATED BY'\001' 

STORED AS SEQUENCEFILE; 


例 3: 添加 聚 类 存储 


下 面 代码 将 创建 page_view 表 ， 该 表 所 包含 字 段 与 例 1 中 page_view 
表 相同 。 在 page_view 表 分 区 的 基础 上 增加 了 素 类 存储 ， 将 列 按照 
userid 进 行 分 区 并 划分 到 不 同 的 桶 中 ， 按 照 viewTime 值 的 大 小 进行 排序 
存储 。 这 样 的 组 织 结构 允许 用 户 通过 userid 属 性 高 效 地 对 集群 列 进行 采 
样 。 


CREATE TABLE page_view (viewTime INT, userid BIGINT, 
page_url STRING, referrer_url STRING, 

ip STRING COMMENT'IP Address of the User') 
COMMENT'This is the page view table' 

PARTITIONED BY (dt STRING, country STRING) 

CLUSTERED BY (userid) SORTED BY (viewTime) INTO 32 BUCKETS 
ROW FORMAT DELIMITED 

FIELDS TERMINATED BY'\001' 

COLLECTION ITEMS TERMINATED BY'\002' 

MAP KEYS TERMINATED BY'\003' 

STORED AS SEQUENCEFILE; 


例 4: 指定 存储 路 径 


到 目前 为 止 ， 在 所 有 例子 中 ， 数 据 都 默认 存储 在 HDFS 的 < 
hive.metastore.warehouse.dir>/<table> 目 孙 中 ， 它 在 Hive 配 置 的 文件 


hive-site.xml 中 设 定 。 我 们 可 以 通过 Location 为 表 指 定 新 的 存储 位 置 ， 
如 下 所 示 : 


CREATE EXTERNAL TABLE page_view (viewTime INT, userid BIGINT, 
page_url STRING, referrer_url STRING, 

ip STRING COMMENT'IP Address of the User', 

country STRING COMMENT'country of origination') 

COMMENT'This is the staging page view table' 

ROW FORMAT DELIMITED FIELDS TERMINATED BY'\054' 

STORED AS TEXTFILE 

LOCATION' <hdfs_location>'; 


2. 修 改 表 语句 


ALTER TABLE 语 句 用 于 改变 一 个 已 经 存在 的 表 的 结构 ， 比 如 增加 
列 或 分 区 ， 改 变 SerDe、 添 加 表 和 SerDe 的 属性 或 重 命名 表 。 


(1) ENEK 
ALTER TABLE table name RENAME TO new_table name 


这 个 命令 可 以 让 用 户 为 表 更 名 。 数 据 所 在 的 位 置 和 分 区 名 并 不 改 
变 。 换 而 言 之 ， 旧 的 表 名 并 未 “释放 ”， 对 旧 表 的 更 改 会 改变 新 表 的 数 
据 。 


(2) 改变 列 名 字 / 类 型 /位 置 /注释 


ALTER TABLE table_name CHANGE[ COLUMN ] 
col_old_name col_new_name column_type 
[COMMENT col_comment ] 

[FIRST|AFTER column_name ] 


这 个 命令 允许 用 户 修改 列 的 名 称 、 数 据 类 型 、 注 释 或 位 置 ， 例 
如 : 


CREATE TABLE test_change (a int, b int, c int) ; 

ALTER TABLE test_change CHANGE a ai INT; // 将 a 列 的 名 字 改 为 a1 
ALTER TABLE test_change CHANGE a al STRING AFTER b; 

// 将 a 列 的 名 字 改 为 a1，a 列 的 数据 类 型 改 为 string， 并 将 它 放置 在 列 b 之 后 


修改 后 ， 新 的 表 结 构 为 : b int, al string, c int ° 


ALTER TABLE test_change CHANGE b b1 INT FIRST; 
// 会 将 b 列 的 名 字 修 改 为 b1， 并 将 它 放 在 第 一 列 


修改 后 ， 新 表 的 结构 为 : bl int, a string, c int ° 


注意 ， 列 的 改变 只 会 修改 Hive 的 元 数据 ， 而 不 会 改变 实际 数据 。 
用 户 应 该 确保 元 数据 定义 和 实际 数据 结构 的 一 致 性 。 


(3) 增加 /更 新 列 


ALTER TABLE table_name ADD|REPLACE 
COLUMNS (col_name data_type[COMMENT col_comment], ......) 


ADD COLUMNS， 人 允许 用 户 在 当前 列 的 末尾 、 分 区 列 之 前 增加 新 
的 列 。REPLACE COLUMNS， 删 除 当 前 的 列 ， 加 入 新 的 列 。 只 有 在 
使 用 native 的 SerDE (DynamicSerDe 或 MetadataTypeColumnsetSerDe) 
时 才 可 以 这 么 做 。 


(4) 增加 表 属 性 


ALTER TABLE table_name SET TBLPROPERTIES table_properties 
table_properties: 
(property_name=property_value, 
property_name=property_value, ..... ) 


用 户 可 以 用 这 个 命令 向 表 中 增加 元 数据 ， 目 前 
last_modified_user、last_modified_time 属 性 都 是 由 Hive 自 动 管理 的 。 用 
户 可 以 向 列 表 中 增加 上 自己 的 属性 ， 可 以 使 用 DESCRIBE EXTENDED 
TABLE 来 获得 这 些 信息 。 


(5) 增加 SerDe 属 性 


ALTER TABLE table name 

SET SERDE serde_class_name 

[WITH SERDEPROPERTIES serde_properties ] 

ALTER TABLE table_name 

SET SERDEPROPERTIES serde_properties 

serde_properties: 
(property_name=property_value, 

property_name=property_value, ..... ) 
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序列 化 和 反 序列 化 数据 ， 将 会 初始化 SerDe 属 性 ， 并 将 属性 传 给 表 的 
SerDe。 这 样 ， 用 户 可 以 为 目 定义 的 SerDe 存 储 属性 


(6) 改变 表 文件 格式 和 组 织 


ALTER TABLE table_name SET FILEFORMAT file format 
ALTER TABLE table_name CLUSTERED BY (col_name, col_name, ..... ) 


[SORTED BY (col_name, ......) JINTO num_buckets BUCKETS 


这 个 命令 修改 了 表 的 物理 存储 属性 。 


注意 ”这 些 命 令 只 能 修改 Hive 的 元 数据 ， 不 能 重组 或 格式 化 现 有 
的 数据 。 用 户 应 该 确定 实际 数据 的 分 布 符合 元 数据 的 定义 。 


3. 表 分 区 操作 语句 


Hive 在 进行 数据 查询 的 时 候 一 般 会 对 整个 表 进 行 扫 描 ， 当 表 很 大 
时 将 会 消耗 很 多 时 间 。 有 时候 只 需要 对 表 中 比较 关心 的 一 部 分 数据 进 
行 扫描 ， 因 此 Hive 引 入 了 分 区 (Partition) 的 概念 。 


Hive 表 分 区 不 同 于 一 般 分 布 式 系统 中 常见 的 范围 分 区 、 哈 布 分 
区 、 一 致 性 分 区 等 概念 。Hive 的 分 区 相对 比较 简单 ， 和 是 在 Hive 的 表 结 
构 下 根据 分 区 的 字段 设置 将 数据 按 目 录 进 行 存放 。 相 当 于 们 单 的 索引 


功能 。 


Hive 表 分 区 需要 在 表 创 建 的 时 候 指 定 模式 才能 使 用 。 它 的 字段 指 
定 的 是 虚拟 的 列 ， 在 实际 的 表 中 并 不 存在 。 在 Hive 表 分 区 的 模式 下 可 
以 指定 多 级 的 结构 ， 相 当 于 对 目录 进行 了 舱 套 。 表 模式 在 创建 完成 之 
后 使 用 之 前 还 需要 通过 ALTER TABLE 语 句 添 加 具体 的 分 区 目录 才能 使 
用 o 


Hive 表 分 区 的 命令 主要 包括 创建 分 区 、 增 加 分 区 和 删除 分 区 。 其 
中 创建 分 区 已 经 在 CREATE 语 句 中 进行 介绍 ， 下 面 介 绍 一 下 为 Hive 表 


增加 分 区 和 删除 分 区 命令 。 


ALTER TABLE table_name ADD 
partition_spec[LOCATION'location1' ]partition_spec[ 

LOCATION 'location2' ]...... 

partition_spec: 

: PARTITION (partition_col=partition_col_value, 
partition_col=partiton_col_ 

value, ......) 


用 户 可 以 用 ALTER TABLE ADD PARTITION 来 对 表 增 加 分 区 。 当 
分 区 名 是 字符 串 时 加 引号 ， 例 如 : 
ALTER TABLE page view ADD 
PARTITION (dt='2010-08-08', country='us') 
location'/path/to/us/part080808 ' 


PARTITION (dt='2010-08-09', country='us') 
location'/path/to/us/part080809' ; 


(2) 删除 分 区 


ALTER TABLE table_name DROP 
partition_spec, partition_spec, ...... 


用 户 可 以 用 ALTER TABLE DROP PARTITION 来 删除 分 区 ， 分 区 
的 元 数据 和 数据 将 被 一 并 删除 ， 例 如 : 


ALTER TABLE page_view 


DROP PARTITION (dt='2010-08-08', country='us') ; 


下 面 我 们 通过 一 组 例子 对 分 区 命令 及 相关 知识 进行 讲解 。 


假设 我 们 有 一 组 电影 评分 数据 由， 该 数据 包含 以 下 字段 ， 用户 
ID、 电 影 ID、 电 影评 分 、 影 片 放映 城市 、 影 片 观看 时 间 。 首先 ， 我们 
使 用 Hive 命 令 行 创建 电影 评分 表 ， 如 代码 清单 11-1 所 示 。 


代码 清单 11-1 创建 电影 评分 表 u1_data 


create table ui_data ( 
userid int, 

movieid int, 

rating int, 

city string, 

viewTime string) 

row format delimited 
fields terminated by'\t' 
stored as textfile; 


该 表 为 普通 用 户 表 ， 字 段 之 间 通 过 制 表 符 %\* 进 行 分 割 。 通 过 
Hadoop 命 令 可 以 查看 该 表 的 目录 结构 如 下 所 示 : 


hadoop fs-ls/user/hive/warehouse/u1_data; 

Found 1 items 

-rw-r--r--1 hadoop supergroup 2609206 2012-05-17 01: 
27/user/hive/warehouse/ 

ui1_data/u.data.new 


可 以 看 到 ul_data 标 下 并 没有 分 区 。 


下 面 我 们 创建 市 有 一 个 分 区 的 用 户 观 影 数据 表 ， 如 代码 清单 11-2 
所 未? 


代码 清单 11-2 创建 电影 评分 表 u2_data: 


create table u2_data ( 
userid int, 

movieid int, 

rating int, 

city string, 

viewTime string) 
PARTITIONED BY (dt string) 
row format delimited 
fields terminated by'\t' 
stored as textfile; 


在 该 表 中 指定 了 单个 表 分 区 模式 ， 即 “dt string”， 在 表 刚 刚 创建 的 
时 候 我 们 可 以 碍 看 该 表 的 目 孙 结构 ， 发 现 其 并 没有 通过 dt 对 表 结 构 进 
行 分 区 ， 如 下 所 示 : 


hadoop fs-ls/user/hive/warehouse/u2_data; 

Found 1 items 

drwxr-xr-x-hadoop supergroup © 2012-05-17 01: 
33/user/hive/warehouse/u2_data/ 


下 面 我 们 使 用 该 模式 对 表 指 定 具体 分 区 ， 如 下 所 示 : 


alter table u2_data add partition (dt='20110801') ; 


此 时 ， 无 论 是 否 加 载 数据 ， 该 表 根 目录 下 将 存在 dt=20110801 分 
XK, WR Ata: 


hadoop fs-ls/user/hive/warehouse/u2_data; 

Found 1 items 

drwxr-xr-x-hadoop supergroup © 2012-05-17 01: 
33/user/hive/warehouse/u2_data/dt=20110801 


这 里 有 两 点 需要 注意 : 


1) 当 没 有 声明 表 模 式 的 时 候 不 能 为 表 指 定 具 体 的 分 区 。 若 为 表 
u2_data 指 定 city 分 区 ， 将 提示 以 下 错误 : 


hive>alter table u2_data add partition (dt='20110901'，city=' 北 
京 ') ; 

FAILED: Error in metadata: table is partitioned but partition 
spec is not specified 

or does not fully match table partitioning: {dt=20110901，city= 北 
i} 

FAILED: Execution Error, return code 1 from 
org.apache.hadoop.hive.ql.exec.DDLTask 


2) 分 区 名 不 能 与 表 属性 名 重复 ， 如 下 所 示 : 


create table u2_data ( 

userid int, 

movieid int, 

rating int, 

city string, 

viewTime string) 

PARTITIONED BY (city string) 

row format delimited 

fields terminated by'\t' 

stored as textfile; 

FAILED: Error in semantic analysis: Column repeated in 
partitioning columns 


另外 ， 还 可 以 为 表 创 建 多 个 分 区 ， 相 当 于 多 级 索引 的 功能 。 以 电 
影评 分 表 为 例 ， 我 们 创建 dt string 和 city string 两 级 分 区 ， 如 代码 清单 
11-3 所 示 。 


代码 请 单 11-3 ”创建 电影 评分 表 u3_data: 


create table u3_data ( 

userid int, 

movieid int, 

rating int) 

PARTITIONED BY (dt string, city string) 
row format delimited 

fields terminated by'\t' 

stored as textfile; 


下 面 ， 我 们 使 用 模式 指定 一 个 具体 的 分 区 并 查看 HDFS 目 孙 ， 如 
下 所 示 : 
alter table u3_data add partition (dt='20110801', city='4ER') ; 
hadoop fs-1ls/user/hive/warehouse/u3_data/dt=20110801; 
Found 1 items 
drwxr-xr-x-hadoop supergroup 0 2012-05-17 19: 


27/user/hive/warehouse/ 
u3_data/dt=20110801/city=1bR 


WY PAGE BER ERT ELL 3.2 RERE (DML) 中 进行 详 


MB, SERER 。 


DROP TABLE table name 


DROP TABLE 用 于 删除 表 的 元 数据 和 数据 。 如 果 配 置 了 Trasn， 屠 
么 会 将 数据 删除 到 TrasMCurrent 目 录 ， 元 数据 将 完全 丢失 。 当 删除 
EXTERNAL 定 义 的 表 时 ， 表 中 的 数据 不 会 从 文件 系统 中 删除 。 


5. 创 建 /删除 视图 
目前 ， 只 有 Hive 0.6 之 后 的 版 本 才 支 持 视 图 。 
(1) 创建 表 视 图 


CREATE VIEW[IF NOT EXISTS]view_name[ (column_name[COMMENT 
column_comment], ......) ] 

[COMMENT view_comment ] 

AS SELECT...... 


CREATE VIEW， 以 指定 的 名 称 创建 一 个 表 视 图 。 如 果 表 或 视图 
的 名 字 已 经 存在 ， 则 报错 ， 也 可 以 使 用 IF NOT EXISTS 忽 略 这 个 错 


误 。 


如 有 果 没 有 提供 表 名 ， 则 视图 列 的 名 字 将 由 定义 的 SELECT 表 达 式 
自动 生成 ， 如 果 SELECT 包 括 像 x+y 这 样 的 无 标量 的 表达 式 ， 则 视图 列 
的 名 字 将 生成 C0，_C1 等 形式 。 当 重 命名 列 时 ， 可 有 选择 地 提供 列 注 


释 。 注 释 不 会 从 底层 列 自动 继承 。 如 果 定 义 SELECT 表 达 式 的 视图 是 
无 效 的 ， 那 么 CREATE VIEW 语句 将 失败 。 
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文 持 物化 视图 。 当 一 个 查询 引用 一 个 视图 时 ， 可 以 评估 视图 的 定义 并 
为 下 一 步 查 询 提供 记录 集合 。 这 是 一 种 概念 的 描述 ， 实 际 上 ， 作 为 查 
询 优化 的 一 部 分 ，Hive 可 以 将 视图 的 定义 与 查询 的 定义 结合 起 来 ， 例 
如 从 查询 到 视图 使 用 的 过 滤 右 。 


在 创建 视图 的 同时 确定 视图 的 架构 ， 随 后 再 改变 基本 表 (如 添加 
一 列 ) 将 不 会 在 视图 的 架构 中 体现 。 如 果 基 本 表 被 删除 或 以 不 兼容 的 
方式 被 修改 ， 则 该 无 效 视 图 的 查询 失败 。 


视图 是 只 读 的 ， 不 能 用 于 LOAD/INSERT/ALTER 的 目标 。 


g 


视图 可 能 包含 ORDER BY 和 LIMIT 子 句 。 如 果 一 个 引用 了 视图 的 
查询 也 包含 了 这 些 子 句 ， 那 么 在 执行 这 些 子 句 时 首先 要 查看 视图 语 
句 ， 然 后 返回 结束 按 视图 中 语句 执行 。 例 如 ， 一 个 视图 v 指 定 返回 记录 
LIMIT 为 5， 执 行 查询 语句 ，select*from v LIMIT 10， 这 个 查询 最 多 返 
回 5 行 记录 ° 


以 下 是 创建 视图 的 例子 : 


CREATE VIEW onion_referrers (url COMMENT'URL of Referring page') 
COMMENT 'Referrers to The Onion website' 

AS 

SELECT DISTINCT referrer_url 

FROM page_view 

WHERE page_url='http: //www.theonion.com'; 


(2) 删除 表 视 图 


DROP VIEW view name 


DROP VIEW， 删 除 指定 视图 的 元 数据 。 在 视图 中 使 用 DROP 
TABLE 是 错误 的 ， 例 如 : 


DROP VIEW onion_referrers; 


6. 创 建 /删除 函数 


(1) 创建 函数 


CREATE TEMPORARY FUNCTION function name AS class_name 


该 语句 创建 了 一 个 由 类 名 实现 的 函数 。 在 Hive 中 可 以 持续 使 用 该 
函数 查询 ， 也 可 以 使 用 Hive 类 路 径 中 的 任何 类 。 用 户 可 以 通过 执行 
ADDFILES 语 句 将 函数 类 添加 到 类 路 径 ， 可 参阅 用 户 指南 CLI 部 分 了 
解 有 关 在 Hive 中 讨 加 /删除 函数 的 更 多 信息 。 使 用 该 语句 注册 用 户 定义 
函数 。 


注销 用 户 定 义 函 数 的 格式 如 下 : 


DROP TEMPORARY FUNCTION function_name 


7. 展 示 摘 述 语句 


在 Hive 中 ， 该 语句 提供 一 种 方法 对 现 有 的 数据 和 元 数据 进行 查 
询 。 


(1) 显示 表 


SHOW TABLES Identifier with wildcards 


SHOW TABLES 列 出 了 所 有 基 表 及 与 给 定 正 则 表达 式 名 字 相 匹配 
的 视图 。 在 正则 表达 式 中 ， 可 以 使 用 “*” 来 匹配 任意 字符 ， 并 使 
用 “[]* 或 “来 表示 选择 关系 。 例 
如 'page_view'、'page_v*'、'*view|page*'"， 所 有 这 些 将 匹 
配 'page_view' 表 。 匹 配 表 按 字母 顺序 排列 。 在 元 存储 中 ， 如 果 没 有 找 
到 匹配 的 表 ， 则 不 提示 错误 。 


(2) 显示 分 区 


SHOW PARTITIONS table name 


SHOW PARTITIONS 列 出 了 给 定 基 表 中 的 所 有 现 有 分 区 ， 分 区 按 
字母 顺序 排列 。 


(3) 显示 表 / 分 区 扩展 


SHOW TABLE EXTENDED[IN|FROM database_name]LIKE 
identifier_with_wildcards 
[PARTITION (partition_desc) ] 


SHOW TABLE EXTENDED 为 列 出 所 有 给 定 的 匹配 正规 表达 式 的 
表 信 息 。 如 有 果 分 区 规范 存在 ， 那 么 用 户 不 能 使 用 正规 表达 式 作 为 表 
名 。 该 命令 的 输出 包括 基本 表 信 息 和 文件 系统 信息 ， 例 如 ， 文 件 总 
数 、 文 件 尽 大 小 、 最 大 文件 大 小 、 最 小 文件 大 小 、 最 新 存储 时 间 和 最 
新 更 刹 时间。 如果 分 区 存在 ， 则 它 会 输出 给 定 分 区 的 文件 系统 信息 ， 
而 不是 表 中 的 文件 系统 信 


作为 视图 ，SHOW TABLE EXTENDED 用 于 检索 视图 的 定义 。 


(4) 显示 函数 


J 


SHOW FUNCTIONS"a.*" 


SHOW FUNCTIONS 为 列 出 用 户 定义 和 建立 所 有 匹配 给 定 正 规 表 
达 式 的 函数 。 可 以 为 所 有 函数 提供 ".*"。 


(5) 描述 表 / 列 


DESCRIBE[EXTENDED]table_name[DOT col_name] 

DESCRIBE[EXTENDED]table_name[DOT col name ([DOT field_name] | 
[DOT'$elem$' ] | 

[DOT '$key$']|[DOT'$value$']) *] 


DESCRIBE TABLE 为 显示 列 信 息 ， 包 括 给 定 表 的 分 区 。 如 果 指 定 
EXTENDED 关 键 字 ， 则 将 在 序列 化 形式 中 显示 表 的 所 有 元 数据 。 
DESCRIBE TABLE 通 常 只 用 于 调试 ， 而 不 用 在 平常 的 使 用 中 。 


如 果 表 有 复杂 的 列 ， 可 以 通过 指定 数组 元 素 
table_name.complex_col_name (和 '$elem$' 作 为 数组 元 素 ，'$key$' 为 图 
的 主键 ，'$value$' 为 图 的 属性 ) 来 检查 该 列 的 属性 。 对 于 复杂 的 列 类 
型 ， 可 以 使 用 这 些 定义 进行 递归 查询 。 


(6) 描述 分 区 
DESCRIBE[EXTENDED]table_name partition_spec 


该 语句 列 出 了 给 定 分 区 的 元 数据 ， 其 输出 和 DESCRIBE TABLES 
似 。 目 前 ， 在 查询 计划 准备 阶段 不 能 使 用 这 些 列 信息 。 


[1] http: //www.grouplens.org/node/73 ° 


11.3.2 ”数据 操作 (DML) 


下 面 我 们 将 详细 介绍 DML ， 它 是 数据 操作 类 语言 ， 其 中 包括 辐 数 
据 表 加 载 文件 、 写 查询 结 采 等 操作 。 


1. 问 数据 表 中 加 载 文件 


当 数 据 被 加 载 至 表 中 时 ， 不 会 对 数据 进行 任何 转换 。Load 操 作 只 
是 将 数据 复制 /移动 至 Hive 表 对 应 的 位 置 ， 代 码 如 下 : 
LOAD DATA[LOCAL]INPATH' filepath' [OVERWRITE] 


INTO TABLE tablename 
[PARTITION (partcoli=vali1, partcol2=val2.....) ] 


其 中 ，filepath 可 以 是 相对 路 径 (例如 ，project/datal) ， 可 以 是 绝 
对 路 径 (例如 ，/user/admin/project/datal) ， 也 可 以 是 完整 的 URI ( 例 
如 ，hdfs: /NameNodeIP: 9000/user/admin/project/datal) 。 加 载 的 目 
标 可 以 是 一 个 表 或 分 区 。 如 采 表 包含 分 区 ， 则 必须 指定 每 个 分 区 的 分 
区 名 。filepath 可 以 引用 一 个 文件 (在 这 种 情况 下 ，Hive 会 将 文件 移动 
到 表 所 对 应 的 目录 中 ) 或 一 个 目录 (在 这 种 情况 下 ，Hive 会 将 目录 中 
的 所 有 文件 移动 至 表 所 对 应 的 目录 中 ) 。 如 采 指 定 LOCAL ， 那 么 load 
命令 会 去 查找 本 地 文件 系统 中 的 flepath。 如 果 发 现 是 相对 路 径 ， 则 路 
径 会 被 解释 为 相对 于 当前 用 户 的 当前 路 径 。 用 户 也 可 以 为 本 地 文件 指 


定 一 个 完整 的 URI， 比 如 fie: ///user/hive/project/data ° tL itloadti SZ 
将 flepath 中 的 文件 复制 到 目标 文件 系统 中 ， 目 标 文件 系统 由 表 的 位 置 
属性 决定 ， 被 复制 的 数据 文件 移动 到 表 的 数据 对 应 的 位 置 。 如 有 果 没 有 
指定 LOCAL 关 键 字 ， 人 名 epath 指 癌 一 个 完整 的 URI， 那 么 Hive 会 直接 使 
用 这 个 URI。 如 果 没 有 指定 schema 或 authority， 则 Hive 会 使 用 在 Hadoop 
配置 文件 中 定义 的 schema 和 authority, fs.default.name 属 性 指定 
NameNode 的 URI。 如 果 路 径 不 是 绝对 的 ， 那 么 Hive 会 相对 于 /user 进 行 
解释 。Hive 还 会 将 fiepath 中 指定 的 文件 内 容 移动 到 table (或 partition) 
所 指定 的 路 径 中 。 如 果 使 用 OVERWRITE 关 键 字 ， 那 么 目标 表 (或 分 
区 ) 中 的 内 容 (如 果 有 ) 会 被 删除 ， 并 且 将 名 epath 指 向 的 文件 /目录 中 
的 内 容 添加 到 表 / 分 区 中 。 如 果 目 标 表 (或 分 区 ) 中 已 经 有 文件 ， 并 且 
文件 名 和 他 epath 中 的 文件 名 冲突 ， 那 么 现 有 的 文件 会 被 新 文件 所 车 

fR e 


2. 将 查询 结果 插入 Hive 表 中 


查询 的 结果 通过 insert 语 法 加 入 到 表 中 ， 代 码 如 下 : 


INSERT OVERWRITE TABLE tablename1[PARTITION (partcol1=vall, 
partcol2=valz2......) ] 

select_statementi FROM from_statement 

Hive extension (multiple inserts) : 

FROM from_statement 

INSERT OVERWRITE TABLE tablename1[PARTITION (partcoli=vali, 
partcol2=valz2......) ] 

select_statement1i 

[INSERT OVERWRITE TABLE 


Hive extension (dynamic partition inserts) : 

INSERT OVERWRITE TABLE tablename PARTITION (partcoli[=val1], 
partcol2[=val2]......) 

select_statement FROM from_statement 


这 里 需要 注意 的 是 ， 插 入 可 以 针对 一 个 表 或 一 个 分 区 进行 操作 。 
如 有 果 对 一 个 表 进 行 了 划分 ， 那 么 在 插入 时 束 要 指定 划分 列 的 属性 值 以 
确定 分 区 。 每 个 Select 语 句 的 结 采 会 被 写 入 选择 的 表 或 分 区 中 ， 
OVERWRITE 关 键 字 会 强制 将 输出 结果 写 入 。 其 中 输出 格式 和 序列 化 
方式 由 表 的 元 数据 决定 。 在 Hive 中 进行 多 表 插入， 可 以 减少 数据 扫 摘 
的 次 数 ， 因 为 Hive 可 以 只 扫 搞 输入 数据 一 次 ， 而 对 输入 数据 进行 多 个 


操作 命令 。 


3. 将 查询 的 结果 写 入 文件 系统 


查询 结果 可 以 通过 如 下 命令 插入 文件 系统 目录 : 


INSERT OVERWRITE[LOCAL]DIRECTORY directory1 SELECT......FROM...... 

Hive extension (multiple inserts) : 

FROM from_statement 

INSERT OVERWRITE[LOCAL]DIRECTORY directory1 select_statementi 

[INSERT OVERWRITE[LOCAL]|DIRECTORY directory2 
select_statement2 ]..... 


这 里 需要 注意 的 是 ， 目 录 可 以 是 完整 的 URI。 如 果 scheme 或 
authority 没 有 定义 ， 那 么 Hive 会 使 用 Hadoop 的 配置 参数 fs.defaultLname 
中 的 scheme 和 authority 来 定义 NameNode 的 URI。 如 果 使 用 LOCAL 关 键 
字 ， 那 么 Hive 会 将 数据 写 入 本 地 文件 系统 中 。 


在 将 数据 写 入 文件 系统 时 会 进行 文本 序列 化 ， 并 且 每 列 用 AA 区 
分 ， 换 行 表示 一 行 数据 结束 。 如 果 任 何 一 列 不 是 原始 类 型 ， 那 么 这 些 
列 将 会 被 序列 化 为 JSON 格 式 。 


11.3.3 SQL 操作 


下 面 是 一 个 标准 的 Select 语 句 语 法 定义 : 


SELECT[ALL|DISTINCT]select_expr, select expr, ..... 
FROM table_reference 

[WHERE where_condition] 

[GROUP BY col_list] 

[CLUSTER BY col_list 


| [DISTRIBUTE BY col_list][SORT BY col_list] 
] 
[LIMIT number ] 


下 面 对 其 中 重要 的 定义 进行 说 明 。 
(1) table_reference 


table_reference 指 明 查 询 的 输入 ， 它 可 以 是 一 个 表 、 一 个 视图 或 一 
个 子 查 询 。 下 面 是 一 个 简单 的 查询 ， 检 索 所 有 表 t1 中 的 列 和 行 


SELECT*FROM t1 
(2) WHERE 


where_condition 是 一 个 布尔 表达 式 。 比 如 下 面 的 查询 只 输出 sales 
表 中 amount > 10 有 region 属 性 值 为 US 的 记录 : 


SELECT*FROM sales WHERE amount>10 AND region="US" 


(3) ALLAIDISTINCT 


ALL 和 DISTINCT 选 项 可 以 定义 重复 的 行 是 否 要 返回 。 如 果 没 有 有 定 
义 ， 那么 默认 为 ALL， 即 输出 所 有 的 匹配 记录 而 不 删除 重复 的 记录 ， 
代码 如 下 : 


hive >SELECT coli, col2 FROM t1 
13 
13 


4 
5 
ive >SELECT DISTINCT coli, col2 FROM t1 
3 
4 
5 
V 


ive>SELECT DISTINCT coli FROM t1 


NRPONRRONE 


(4) LIMIT 


LIMITA] LAPS rill AERA, BENUR RAAR FA Da H 
输出 : 


SELECT*FROM t1 LIMIT 5 


下 面 代码 为 输出 Top-k, k=5 的 查询 结果 : 


SET mapred.reduce.tasks=1 
SELECT*FROM Sales SORT BY amount DESC LIMIT 5 


(5) 使 用 正则 表达 式 


SELECT 声明 可 以 匹配 使 用 一 个 正则 表达 式 的 列 。 下 面 的 例子 会 
对 sales 表 中 除了 ds 和 hr 的 所 有 列 进行 扫描 : 


SELECT (ds|hr) ?+.+FROM sales 


通常 来 说 ，SELECT 碍 询 要 扫描 全 部 的 表 。 如 有 果 一 个 表 是 使 用 
PARTITIONED BY 语句 产生 的 ， 那 么 查询 可 以 对 输入 进行 “ 辟 校 *?， 只 
对 表 的 相关 部 分 进行 扫描 。Hive 现 在 只 对 在 WHERE 中 指定 的 分 区 断言 
进行 “ 剪 枝 ? 式 的 扫描 。 举 例 来 说 ， 如 果 一 个 表 page_view 按 照 date 列 的 
值 进行 了 分 区 ， 那 么 下 面 的 查询 可 以 检索 出 日 期 为 2010-03-01 的 行 记 


SELECT page_views. * 

FROM page_views 

WHERE page _views.date>='2010-03-01'AND page_views.date<='2010- 
03-31' 


(7) HAVING 


Hive 目 前 不 支持 HAVING 语 义 ， 但 是 可 以 使 用 子 查 询 实 现 ， 示 例 
如 下 : 


SELECT coli FROM ti GROUP BY coli HAVING SUM (co12) >10 


可 以 表示 为 : 


SELECT coli FROM (SELECT coli, SUM (col2) AS col2sum FROM t1 
GROUP BY col1) t2 
WHERE t2.col2sum>10 


我 们 可 以 将 查询 的 结果 写 入 到 目录 中 : 


hive>INSERT OVERWRITE DIRECTORY'/tmp/hdfs_ out'SELECT a.*FROM 
invites a WHERE 
a.ds='2009-09-01'; 


上 面 的 例子 将 查询 结果 写 入 /tmp/hdfs_out 目 录 中 。 也 可 以 将 查询 
结果 写 入 本 地 文件 路 径 ， 如 下 所 示 : 


hive>INSERT OVERWRITE LOCAL DIRECTORY'/tmp/local out'SELECT 
a.*FROM pokes a; 


其 他 〈 例 如 GROUP BY 和 JOIN) HIVE FAISQLAR], Gita 
述 ， 下 面 是 使 用 的 例子 ， 详 细 信息 可 以 查看 
http: //wiki.apache.org/hadoop/Hive/LanguageManual ° 


(8) GROUP BY 


hive>FROM invites a INSERT OVERWRITE TABLE events SELECT a.bar, 
count (*) WHERE 

a.foo>@ GROUP BY a.bar; 

hive >INSERT OVERWRITE TABLE events SELECT a.bar, count (*) FROM 
invites a WHERE 

a.foo>@ GROUP BY a.bar; 


(9) JOIN 


hive>FROM pokes t1 JOIN invites t2 ON (ti.bar=t2.bar) INSERT 
OVERWRITE TABLE 
events SELECT ti.bar, ti.foo, t2.foo; 


(10) 多 表 INSERT 


FROM src 

INSERT OVERWRITE TABLE dest1 SELECT src.*WHERE src.key<100 

INSERT OVERWRITE TABLE dest2 SELECT src.key, src.value WHERE 
src.key>=100 and 

src. key< 200 

INSERT OVERWRITE TABLE dest3 PARTITION (ds='2010-04-08', 
hr='12') SELECT src.key 

WHERE src.key>=200 and src.key<300 

INSERT OVERWRITE LOCAL DIRECTORY'/tmp/dest4.out'SELECT src.value 
WHERE src.key 

> =300; 


(11) STREAMING 


hive >FROM invites a INSERT OVERWRITE TABLE events SELECT 
TRANSFORM (a.foo, a.bar) 
AS (oof, rab) USING'/bin/cat'WHERE a.ds>'2010-08-09'; 


这 个 命令 会 将 数据 输入 给 Map 操 作 (通过 /bin/cat 命 令 ) ， 同 样 也 
可 以 将 数据 流 式 输入 给 Reduce 操 作 。 


11.3.4 Hive QL 使 用 实例 


下 面 我 们 通过 两 个 例子 对 Hive QL 的 使 用 方法 进行 介绍 ， 从 中 可 以 
看 到 它 与 传统 SQL 语 句 的 异同 点 。 


1. 电 影评 分 


首先 创建 表 ， 并 且 使 用 tab 空 格 定 义 文本 格式 : 


CREATE TABLE u_data ( 
userid INT, 

movieid INT, 

rating INT, 

unixtime STRING) 

ROW FORMAT DELIMITED 
FIELDS TERMINATED BY'\t' 
STORED AS TEXTFILE; 


然后 下 载 数据 文本 文件 并 解压 ， 代 码 如 下 : 


wget http: //www.grouplens.org/system/files/ml-data.tar__0.gz 
tar xvzf ml-data.tar__0.gz 


将 文件 加 载 到 表 中 ， 代 码 如 下 : 


LOAD DATA LOCAL INPATH'ml-data/u.data' 

OVERWRITE INTO TABLE u_data; 

Count the number of rows in table u_data: 

SELECT COUNT (*) FROM u_data; // 由 于 版 本 问题 ， 如 果 此 处 出 现 错误 ， 你 可 能 需 
要 使 用 COUNT (1) 替换 

COUNT (*) 


下 面 可 以 基于 该 表 进 行 一 些 复杂 的 数据 分 析 操 作 ， 此 处 我 们 使 用 
Python 语言 ， 首 先 创建 Python 脚本 ， 如 代码 清单 11-4 所 示 。 


代码 清单 11-4 weekday_mapperpy 脚 本 文件 


import sys 

import datetime 

for line in sys.stdin: 

line=line.strip () 

userid, movieid, rating, unixtime=line.split ('\t') 

weekday=datetime.datetime.fromtimestamp (float 
(unixtime) ) .isoweekday () 

print'\t'.join ([userid, movieid, rating, str (weekday) ]) 


使 用 如 下 mapper 脚 本 调用 weekday_mapperpy 脚 本 进行 操作 © 


CREATE TABLE u_data_new ( 

userid INT, 

movieid INT, 

rating INT, 

weekday INT) 

ROW FORMAT DELIMITED 

FIELDS TERMINATED BY'\t'; 

add FILE weekday_mapper.py; 

INSERT OVERWRITE TABLE u_data_new 
SELECT 

TRANSFORM (userid, movieid, rating, unixtime) 
USING'python weekday_mapper .py' 

AS (userid, movieid, rating, weekday) 
FROM u_data; 

SELECT weekday, COUNT (*) 

FROM u_data_new 

GROUP BY weekday; 


2.Apache 网 络 日 志 数 据 (Weblog) 


可 以 定制 Apache 网 络 日 志 数 据 格 式 ， 不 过 一 般 管 理 痢 都 使 用 默认 
的 格式 。 对 于 默认 设置 的 Apache Weblog 可 以 使 用 以 下 命令 创建 表 : 


add jar../build/contrib/hive_contrib. jar; 

CREATE TABLE apachelog ( 

host STRING, 

identity STRING, 

user STRING, 

time STRING, 

request STRING, 

status STRING, 

size STRING, 

referer STRING, 

agent STRING) 

ROW FORMAT 
SERDE'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' 

WITH SERDEPROPERTIES ( 

"input.regex"="_([A]*) ([A]*) 〈([A]*) G- PASME] An) 
CEA PON TAA) 

(-| [0-9]*) (-| [0-9]*) (?: CEO Ae (fOr p" 

[a" Je") ) on 

"output. format.string"="%1$S%2$S%3$S%4$S%5$S%EHSS%7 FS%BSS%IFS" 


STORED AS TEXTFILE; 


更 多 内 容 可 以 查看 http: //issues.apache.org/jira/browse/HIVE-662 ° 


11.4 Hive 网 络 (Web UI) 接口 


通过 Hive 的 网 络 接口 可 以 更 方便 、 更 直观 地 操作 ， 竺 别 是 对 刚 接 
触 Hive 的 用 户 。 下 面 看 看 网 络 接口 具有 的 特性 。 


(1) 分 离 查询 的 执行 


在 命令 行 (CLI) 下 ， 要 执行 多 个 查询 就 要 打开 多 个 终端 ， 而 通 
过 网 络 接口 ， 可 以 同时 执行 多 个 查询 ， 网 络 接口 可 以 在 网 络 服务 器 上 


过 
管 


理会 话 (session) 。 
(2) 不 用 本 地 安装 Hive 


用 户 不 需要 本 地 安装 Hive 就 可 以 通过 网 络 浏 贤 絮 访问 Hive 并 进行 
操作 。 如 果 想 通过 Web 与 Hadoop 及 Hive 交 互 ， 那 么 需要 访问 多 个 端 
口 。 而 一 个 远程 或 VPN 的 用 户 只 需要 访问 Hive 网 络 接口 所 使 用 的 
0.0.0.0 tcp/9999 ° 


11.4.1 Hive 网 络 接口 配置 


使 用 Hive 的 网 络 接口 需要 修改 配置 文件 hive-site.xml。 通常 不 需要 
额外 地 编辑 默认 的 配置 文件 ， 如 果 需 要 编辑 ， 可 参照 以 下 代码 进行 


<property> 

<name>hive.hwi.listen.host </name > 

<value>0.0.0.0</value> 

<description>This is the host address the Hive Web Interface 
will listen on</ 

description> 

</property> 

<property> 

<name>hive.hwi.listen.port </name> 

<value >9999</value > 

<description>This is the port the Hive Web Interface will 
listen on</ 

description> 

</property> 

<property> 

<name>hive.hwi.war.file</name > 

<value > ${HIVE_HOME}/1lib/hive_hwi.war </value> 


<description>This is the WAR file with the jsp content for Hive 
Web Interface</ 


description> 
</property> 


在 配置 文件 中 ， 监 听 端 口 默认 是 9999， 也 可 以 通过 hive 配 置 文件 
对 端口 进行 修改 。 当 配置 完成 后 ， 我 们 可 以 通过 hive--service hwi 命 令 
开局 服务 。 有 具体 操作 如 下 所 示 : 


hive--service hwi 

12/05/17 20: 02: 26 INFO hwi.HWIServer: HWI is starting up 

12/0 5/1720: 02: 27INFOmortbay.log: Loggi 
ngtoorg.slf4j.impl. 

Log4jLoggerAdapter (org.mortbay.log) via org.mortbay.log.S1f4jLog 

12/05/17 20: 02: 27 INFO mortbay.log: jetty-6.1.26 


12/05/17 20: 02: 28 INFO mortbay.log: Extract/home/hadoop/hadoop- 
1.0.1/hive-0.8.1/ 


lib/hive-hwi-0.8.1.war 
to/tmp/Jetty_0 0 0 0 9999 hive.hwi.0.8.1.war__hwi__ 
m9wzki/webapp 
12/05/17 20: 02: 29 INFO mortbay.log: Started 
SocketConnector@0.0.0.0: 9999 
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9999/hwi 即 可 ， 如 图 11-2 所 示 。 
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11-2 Hive 的 网 络 接口 (WebUI) 


可 以 看 到 Hive 的 网 络 接口 拉 近 了 用 户 和 系统 的 距离 。 我 们 可 以 通 
过 网 络 直接 创建 会 话 ， 并 进行 查询 。 用 户 界 面 和 功能 展示 非常 直观 ， 


适合 刚 接触 到 Hive 的 用 户 。 


11.4.2 ”Hive 网 络 接口 操作 实例 


下 面 我 们 使 用 Hive 的 网 络 接口 进行 简单 的 操作 。 

从 图 11-2 中 可 以 看 出 ，Hive 的 网 络 操作 接口 包含 数据 库 及 表 信 息 
查询 、Hive 查 询 、 系 统 诊断 等 功能 ， 下 面 分 别 对 其 进行 介绍 

1. 数 据 库 及 表 信 息 查询 


单 击 Browse Schema 可 以 查看 当前 Hive 中 的 数据 库 ， 界 面 中 显示 的 
是 当前 可 以 使 用 的 数据 库 信 息 ， 只 包含 一 个 数据 库 (default) ; 再 单 
击 default， 就 可 以 看 到 default 数 据 库 中 包含 的 所 有 表 的 信息 了 ， 如 


11-3 所 示 。 


11-3 Hive 数据库 表 


在 图 11-3 中 ， 选 择 某 一 个 具体 的 数据 库 束 可 以 直接 浏览 该 数据 库 
的 模式 信息 了 。 以 代码 清单 11-3 所 创建 的 影片 评分 表 表 为 例 ， 图 11-4 
为 该 表 的 模式 信息 。 
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11-4 u3_data 表 模式 


2.Hive 查 询 


在 进行 Hive 查 询 之 前 首选 创建 一 个 会 话 (Session) 。 在 创建 完 会 
话 之 后 ， 我 们 可 以 通过 List Session 链 接 列 出 所 有 的 Session。 当 Hive 重 
启 后 ，Session 信 息 将 全 部 丢失 。 会 话 与 认证 (Authorize) 是 相互 关联 
的 。 在 创建 一 组 会 话 之 后 ， 我 们 可 以 通过 Authorize 链 接 创 建 该 组 的 认 
证 信息 。 认 证 信息 包括 用 户 和 组 。 某 组 会 话 的 用 户 和 组 被 指定 后 将 不 
能 改变 。 可 以 通过 认证 来 启用 不 同 的 会 话 组 。 


下 面 通过 图 11-5 具 体 介绍 如 何 使 用 创建 的 会 话 进 行 Hive 数 据 查 询 
操作 。 
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图 11-5 会 话 管理 界面 


如 图 11-5 所 示 ， 用 户 可 以 在 Query 窗 口中 输入 查询 语句 。 我 们 在 用 
户 框 中 输入 如 下 代码 来 查看 操作 结果 。 此 时 需要 指定 Result File (结果 
文件 ) 并 将 Start Query (开始 查询 ) 选项 置 为 YES 。 


select*from ui_data limit 5; 


单 击 View File (查看 文件 ) ， 操 作 结果 如 图 11-6 所 示 ° 
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11-6 ”操作 结果 


通过 WebUI 也 可 以 执行 复杂 的 查询 ， 但 是 这 样 做 的 缺点 是 用 户 不 
了 解 查 询 的 状态 ， 交 互 能 力 较 兰 。 当 查询 所 需 时 间 较 长 的 时 候 用 户 需 
要 一 直 等 行 操 作 的 结 有 果 。 


11.5 Hive 的 JDBC 接 口 


通过 上 面 的 介绍 我 们 知道 ， 用 户 可 以 使 用 命令 行 接口 (CLI) 和 
Hive 进 行 交 互 ， 也 可 以 使 用 网 络 接口 (Web UI) 和 Hive 进 行 交 互 。 本 
节 我 们 将 具体 介绍 JDBC 接 口 。 如 果 是 以 集群 中 的 节点 作为 客户 端 来 访 
问 Hive， 则 可 以 直接 使 用 jdbc: hive: /。 对 于 一 个 非 集群 节点 的 客户 
端 来 说 ， 可 以 使 用 jdbc: hive: //host: port/dbname 来 进行 访问 。 


为 了 方便 用 户 的 使 用 ， 下 面 我 们 介绍 如 何 使 用 Eclipse 进 行程 序 的 
开发 。 


11.5.1 Eclipse 环境 配置 


首先 在 Eclipse 中 创建 一 个 Java 工 程 ， 例 如 HiveTest。 创 建 完 Java 工 
程 后 需要 修改 工程 的 库 文件 ， 添 加 编译 Hive 程 序 所 必需 的 JAR 包 。 


Hive 工 程 依赖 于 Hive JAR 包 、 日 志 JAR 包 。 由 于 Hive 的 很 多 操作 
依赖 于 MapReduce 程 序 ， 因 此 Hive 工 程 中 还 需要 引入 Hadoop 包 。 在 创 
建 完 Hive 工 程 后 ， 我 们 通过 引入 外 部 包 添 加 Hive 依 赖 包 。 在 Hive 工 程 
上 点 击 右键 ， 选 择 : “Properties” 一 “Java Build 


Path” > “Libraries” > “Add External Jars”， 然 后 选择 所 需 的 Jar 文 件 。 如 
图 11-7 所 示 为 添加 好 的 Jar 包 。 


> mi JRE System Library | JavaSe-1 6) 
Y mi Refererced Ubrarics 
> pe hve execd, Blor 
> hvejdbc0.6.10r- Mome’ 
> be hvemetastore-0.B. 1.jar -/ħome 
» bs hiveservice-0.8 t jar -/horne/ha 
> be Gf 303 jar - /home/ha 
> be bogdj-1.2. 15. jar - /Mor 
> ba hadoop-core1.0.1.jar- /home/h 
» i commons ogging-1.0.4.jar -小 


> & sif@-apet.o. 1jer-/home/hedo 


> E siFaiiog4§12-1.6.1 jar - /home/hs 


11-7 Hive 工 程 依赖 包 


在 完成 上 述 操 作 后 便 可 以 使 用 Eclipse 编写 Hive 程 序 了 。 完 成 之 
后 ， 选 择 Run as Java Application 即 可 。 


11.5.2 ”程序 实例 


在 使 用 JDBC 链 接 Hive 之 前 ， 首 先 需 要 开局 Hive 监 听 用 户 的 链接 。 
开启 Hive 服 务 的 方法 如 下 所 示 : 


hive--service hiveservice 

Service hiveservice not found 

Available Services: cli help hiveserver hwi jar lineage 
metastore rcfilecat 

hadoop@master: ~/hadoop-1.0.1/hive-0.8.1/bin/ext$hive--service 
hiveserver 

Starting Hive Thrift Server 

Hive history 
file=/tmp/hadoop/hive_job_log_hadoop_201205150632 _559026727.txt 


下 面 是 一 个 使 用 Java 编 写 的 JDBC 客 户 端 访问 的 代码 样 例 : 


package cn.edu.rnc.cloudcomputing.book.chapter11; 

import java.sql.SQLException; 

import java.sql.Connection; 

import java.sql.ResultSet; 

import java.sql.Statement; 

import java.sql.DriverManager; 

public class HiveJdbcClient{ 

[* 

*@param args 

*@throws SQLException 

*/ 

public static void main (String[]args) throws SQLException{ 
/ NEH IDBCIK5) 

try{ 

Class.forName ("org.apache.hadoop.hive.jdbc.HiveDriver") ; 
}catch (ClassNotFoundException e) { 

//TODO Auto-generated catch block 

e.printStackTrace () ; 

System.exit (1) ; 


I 


// 创 建 连接 

Connection con=DriverManager.getConnection ("jdbc: hive: // 

master: 10000/default", "", "") ; 

//statement 用 来 执行 SQL 语句 

Statement stmt=con.createStatement () ; 

// 下 面 为 Hive 测 斌 语句 

String tableName="u1 data"; 

stmt.executeQuery ("drop table"+tableName) ; 

ResultSet res=stmt.executeQuery ("create table"+tableName+" 
(userid int, "+ 

"movieid int, "+ 

"rating int, "+ 

"City string, "+ 

"viewTime string) "+ 

"row format delimited"+ 

"fields terminated by'\t'"+ 

"stored as textfile") ; // 创 建 表 

//show tables 语 句 

String sql="show tables"; 

System.out.println ("Running: "+sql+": ") ; 
res=stmt.executeQuery (sql) ; 

if (res.next () ) { 

System.out.printin (res.getString (1) ) ; 

} 

//describe table fJ 

sql="describe"+tableName; 

System.out.println ("Running: "+sql) ; 
res=stmt.executeQuery (sql) ; 

while (res.next () ) { 

System.out.println (res.getString (1) +"\t"+tres.getString (2) ) ; 


} 

//load data 语 句 

String filepath="/home/hadoop/Downloads/u.data.new"; 
sql="load data local inpath'"+filepath+"'overwrite into table 
"+tableName; 

System.out.println ("Running: "+sql) ; 

res=stmt.executeQuery (sql) ; 

//select query: 选取 前 5 条 记录 
sql="select*from"+tableNamet+"limit 5"; 

System.out.println ("Running: "+sql) ; 

res=stmt.executeQuery (sql) ; 

while (res.next () ) { 

System.out.println (String.valueOf (res.getString (3) +"\t"+ 
res.getString (4) ) ) ; 

} 

//hive query: 统计 记录 个 数 

sql="select count (*) from"+tableName; 

System.out.println ("Running: "+sql) ; 


res=stmt.executeQuery (sql) ; 

while (res.next () ) { 
System.out.printin (res.getString (1) ) ; 
} 

} 

} 


从 上 述 代 码 可 以 看 出 ， 在 进行 查询 操作 之 前 需要 做 如 下 工作 : 


1) 通过 Class.forName 


("org.apache.hadoop.hive.jdbc.HiveDriver") ; 语句 注册 Hive 驱 动 ; 


2) 通过 Connection con=DriverManager.getConnection ("jdbc: 
hive: //master: 10000/default", "", "") ; 语句 建立 与 Hive 数 据 库 的 连 
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Running: show tables: 

page_view 

testhivedrivertable 

ui1_data 

u2_data 

u3_data 

Running: describe uli data 

userid int 

movieid int 

rating int 

city string 

viewtime string 

Running: load data local 
inpath'/home/hadoop/Downloads/u.data.new'overwrite into 

table u1_data 

Running: select*from ul1 data limit 10 

3 北京 

3 北京 
1 石家庄 


2 石家庄 
1 苏州 
Running: select count (*) from ui data 
100000 


当前 的 JDBC 接 口 只 文 持 查询 的 执行 及 结果 的 获取 ， 并 且 文 持 部 分 
元 数据 的 读 取 。Hive 文 持 的 接口 除了 JDBC 外 ， 还 有 Python、PHP、 
ODBC 等 。 读 者 可 以 访问 


http: //wiki.apache.org/hadoop/Hive/HiveClient#JDBC 查 看 相关 信息 。 


11.6 Hive 的 优化 


Hive 针 对 不 同 的 查询 进行 优化 ， 其 优化 过 程 可 以 通过 配置 进行 控 
制 。 本 市 我 们 将 介绍 部 分 优化 策略 及 优化 控制 选 


1. 列 裁剪 (Column Pruning) 


在 读 取 数据 时 ， 只 读 取 碍 询 中 需要 用 到 的 列 ， 而 忽略 其 他 列 ， 例 
如 如 下 查询 : 


SELECT a, b FROM t WHERE e<10; 


其 中 ， 对 于 表 t 包 含 的 5 个 列 (a,b, cd, e) ， 经 过 列 裁剪 ， 列 c 
和 d 将 会 被 忽略 ， 执 行 中 只 会 读 取 a, b，e 列 。 要 实现 列 裁剪 ， 需 要 设置 


参数 hive.optimize.cp=true ° 
2. 分 区 裁剪 (Partition Pruning) 
在 查询 过 程 中 减少 不 必要 的 分 区 ， 例 如 如 下 查询 : 


SELECT*FROM (SELECT c1, COUNT (1) 
FROM T GROUP BY c1) subq 
WHERE subq.prtn=100; 
SELECT*FROM T1 JOIN 
(SELECT*FROM T2) subg ON (T1.c1=subq.c2) 
WHERE subq.prtn=100; 


Sy XPS LILA i), SEF EAP FE subq.prtn=100% 
件 ， 从 而 减少 读 入 的 分 区 数目 。 要 实现 分 区 裁剪 ， 须 设置 


hive.optimize.pruner=true ° 


3.Join 操 作 


当 使 用 有 Join 操 作 的 查询 语句 时 ， 有 一 条 原则 : 应 该 将 条 目 少 的 
表 / 子 查询 放 在 Join 操 作 符 的 左边 。 原 因 是 在 Join 操 作 的 Reduce 阶 段 ， 
Join 操 作 符 左边 表 中 的 内 容 会 被 加 载 到 内 存 中 ， 将 条 目 少 的 表 放 在 左 
边 可 以 有 效 减 少 发 生 内 存 溢 出 (OOM: Out of Memory) 的 几率 。 


对 于 一 条 语句 中 有 多 个 Join 的 情况 ， 如 果 Join 的 条 件 相同 可 以 进行 
优化 ， 比 如 如 下 查询 : 


INSERT OVERWRITE TABLE pv_users 

SELECT pv.pageid, u.age FROM page view p 
JOIN user u ON (pv.userid=u.userid) 

JOIN newuser x ON (u.userid=x.userid) ; 


我 们 可 以 进行 的 优化 是 ， 如 果 Join 的 key 相 同 ， 那 么 不 管 有 多 少 个 
表 ， 都 会 合并 为 一 个 MapReduce。 如 果 Join 的 条 件 不 相同 ， 比 如 : 


INSERT OVERWRITE TABLE pv_users 

SELECT pv.pageid, u.age FROM page _view p 
JOIN user u ON (pv.userid=u.userid) 

JOIN newuser x on (u.age=x.age) ; 


如 果 MapReduce 的 任务 数目 和 Join 操 作 的 数目 是 对 应 的 ， 那 么 上 壕 


YY N \ =I Fy 
查询 和 以 下 查询 是 等 价 的 : 
INSERT OVERWRITE TABLE tmptable 
SELECT*FROM page_view p JOIN user u 
ON (pv.userid=u.userid) ; 
INSERT OVERWRITE TABLE pv_users 


SELECT x.pageid, x.age FROM tmptable x 
JOIN newuser y ON (x.age=y.age) ; 


4.Map Join 控 作 


Map Join 操 作 无 须 Reduce 探 作 融 可 以 在 Map 阶 段 全 部 完成 ， 前 提 
是 在 Map 过 程 中 可 以 访问 到 全 部 需要 的 数据 。 比 如 如 下 查询 : 
INSERT OVERWRITE TABLE pv_users 
SELECT/*+MAPJOIN (pv) */pv.pageid, u.age 
FROM page_view pv 
JOIN user u ON (pv.userid=u.userid) ; 

这 个 查询 便 可 以 在 Map 阶 段 全 部 完成 Join。 此 时 还 须 设置 的 相关 属 
性 为 : hive.join.emit.inter-l=1000、hive.mapjoin.size.key=10000、 
hive.map-join.cache.numrows=10000 。hive.join.emit.inter-]=1000 属 性 定 
义 了 在 输出 Join 的 结果 前 ， 还 要 判断 右 侧 进 行 Join 的 操作 数 最 多 可 以 加 
载 多 少 行 到 缓存 中 。 


5.Group By 探 作 


进行 Group BY 操作 时 需要 注意 以 下 两 点 。 
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事实 上 ， 并 不 是 所 有 的 聚合 操作 都 需 要 在 
Reducetb7 íT, IRA FE AER EAD FY LATE TEMapim TARA, I 
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后 在 Reduce 端 得 出 最 终结 果 。 


这 里 需要 修改 的 参数 包括 : hive.map.aggr=true， 用 于 设 定 是 否 在 
Map 端 进行 聚合 ， 默 认为 True ° 
hive.groupbymapaggr.checkinterval=100000， 用 于 设 定 在 Map 端 进行 聚 
合 操作 的 条 目 数 。 


有 数据 倾斜 《数据 分 布 不 均匀 ) 时 进行 负载 均衡 。 此 处 需要 设 定 
hive.groupby.skewindata， 当 选项 为 true 时 ， 生 成 的 查询 计划 会 有 两 个 
MapRreduce 任 务 。 在 第 一 个 MapReduce 中 ，Map 的 输出 结果 集合 会 随 
机 分 布 到 Reduce 中 ， 对 每 个 Reduce 做 部 分 聚合 操作 并 输出 结果 。 这 样 
处 理 的 结果 是 ， 相 同 的 Group By Key 有 可 能 被 分 发 到 不 同 的 Reduce 
中 ， 从 而 达到 负载 均衡 的 目的 ;第 二 个 MapReduce 任 务 再 根据 预 处 理 
的 数据 结果 按照 Group By Key 分 布 到 Reduce 中 (这 个 过 程 可 以 保证 相 
同 的 Group By Key 分 布 到 同一 个 Reduce 中 ) ， 最 后 完成 最 终 的 聚合 操 
作 。 


6. 合 并 小 文件 


在 第 9 章 “HDFS 详 解 * 中 我 们 知道 ， 文 件数 目 过 多 会 给 HDFS 带 来 很 
大 的 压力 ， 并 且 会 影响 处 理 的 效率 。 因 此 ， 我 们 可 以 通过 合并 Map 和 


Reduce 的 结 宁 文 件 来 消除 这 样 的 影响 。 需 要 进行 的 设 定 有 以 下 三 个 : 
hive.merge.mapfiles=true， 设 定 是 否 合并 Map 输 出 文件 ， 默 认为 True; 
hive.merge.mapredfiles=false， 设 定 是 否 合并 Reduce 输 出 文件 ， 默 认为 
False; hive.merge.size.per.task=256*1000*1000， 设 定 合 并 文件 的 大 
小 ， 默 认 值 为 256 000 000 ° 


11.7 REME 


本 革 我 们 主要 对 建立 在 Hadoop 之 上 的 数据 仓库 架构 Hive 进 行 了 详 


细 介 绍 。 


首先 ， 介 绍 了 Hive 的 安装 和 配置 。 由 于 Hadoop 的 最 新 版 本 都 集成 
了 Hive， 所 以 安装 很 答 单 ， 只 需要 人 秒 单 修改 配置 文件 即 可 。 


其 次 ， 着 重 介绍 了 Hive 的 类 SQL 语言 Hive QL， 通 过 学 习 Hive 
QL， 用 户 可 以 进行 类 似 传统 数据 库 的 操作 。 我 们 可 以 看 到 Hive QL 有 
别 于 传统 的 SQL 实现 ， 但 是 它们 也 有 很 多 相似 之 处 ，Hive QL 既 继承 了 
传统 SQL 的 优势 ， 又 结合 了 Hadoop 文 件 系统 的 特性 。 


最 后 ， 对 Hive 的 几 个 重要 接口 进行 了 介绍 ， 这 有 助 于 大 家 更 快 地 
掌握 和 使 用 Hive， 并 且 还 介绍 了 如 何 配置 Eelidse 环 境 编 写 Hive 程 序 。 
对 管理 员 来 说 ， 本 章 还 给 出 了 Hive 的 优化 策略 ， 可 以 为 Hive 的 使 用 助 
一 臂 之 力 。 
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12.1 HBase 简 介 


HBase 是 Apache Hadoop 的 数据 库 ， 能 够 对 大 数据 提供 随机 、 实 时 
的 读 写 访问 功能 ， 具 有 开源 、 分 布 式 、 可 扩展 及 面向 列 存 储 的 特点 。 
HBase 是 由 Chang 等 人 基于 Google 的 Bigtablei 开发 而 成 的 。 HBase 的 目 
标 是 存储 并 处 理 大 型 的 数据 ， 更 具体 来 说 是 只 需 使 用 普通 的 硬件 配置 
即 可 处 理由 成 千 上 万 的 行 和 列 所 组 成 的 大 数据 。 


HBase 是 一 个 开源 的 、 分 布 式 的 、 多 版 本 的 、 面 向 列 的 存储 模 
型 。 它 可 以 直接 使 用 本 地 文件 系统 ， 也 可 以 使 用 Hadoop 的 HDFS 文 件 
存储 系统 。 不 过 ， 为 了 提高 数据 的 可 靠 性 和 系统 的 健壮 性 ， 并 且 发 挥 
HBase 处 理 大 数据 的 能 力 ， 使 用 HDFS 作 为 文件 存储 系统 才 更 为 稳妥 。 


另外 ，HBase 存 储 的 是 松散 型 数据 。 具 体 来 说 ，HBase 存 储 的 数据 
介 于 映射 (key/value) 和 关系 型 数据 之 间 。HBase 存 储 的 数据 可 以 理 
解 为 一 种 key 和 value 的 映 映 和 关系 ， 但 又 不 是 简 简 单单 的 映射 关系 。 除 
此 之 外 它 还 具有 许多 其 他 的 特性 ， 我 们 将 在 本 章 后 面 详 细 讲述 。 
HBase 存 储 的 数据 从 逻辑 上 来 看 束 像 一 张 很 大 的 表 ， 并 且 它 的 数据 列 
可 以 根据 需要 动态 地 增加 。 除 此 之 外 ， 每 个 单元 (cell， 由 行 和 列 所 确 
定 的 位 置 ) 中 的 数据 又 可 以 具有 多 个 版 本 CRIT BOR RAI) © AM 
图 12-1 所 示 可 以 看 出 ，HBase 还 具有 这 样 的 特点 ， 它 同 下 提供 了 存储 ， 
向 上 提供 了 运算 。 男 外 ， 在 HBase 之 上 还 可 以 使 用 Hadoop 的 


MapReduce 计 算 模 型 来 并 行 处 理 大 规模 数据 ， 这 也 是 它 具 有 强大 性 能 
的 核心 所 在 。 它 将 数据 存储 与 并 行 计算 完美 地 结合 在 一 起 。 


12-1 HBase 关 系 图 
下 面 列举 一 下 HBase 所 具有 的 特性 ; 
线性 及 模块 可 扩展 性 ; 
严格 一 致 性 读 写 
可 配置 的 表 自 动 分 割 策略 ; 
RegionServer 上 自动 故障 恢复 
便利 地 备份 MapReduce 作 业 的 基 类 ; 
便于 客户 只 访问 的 Java API; 
为 实时 查询 提供 了 块 缓存 和 Bloom Filter; 


可 通过 服务 硕 端 的 过 滤 融 进行 查询 下 推 预测 ; 


提供 了 文 持 XML、Protobuf 及 二 进 制 编码 的 Thrift 网 管 和 REST-ful 
网 络 服务 ; 


可 扩展 的 JIRB (jruby-based) shell; 
文 持 通 过 Hadoop 或 JMX 将 度量 标准 倒 出 到 文件 或 Ganglia 中 。 


下 面 我 们 将 具体 介绍 HBase 的 特性 及 其 安装 、 配 置 、 使 用 的 方 
法 。 


[1] Google 论 文 : Bigtable: A Distributed Storage System for Structured 


Data 


12.2 HBase 的 基本 操作 


在 介绍 完 HBase 的 基本 特性 之 后 ， 本 市 将 首先 介绍 如 何 安 装 
HBase。 由 于 它 有 单机 、 伪 分 布 、 全 分 布 三 种 运行 模式 ， 因 此 我 们 将 
分 别 进行 讲解 。 在 安装 成 功 之 后 ， 再 介绍 如 何 对 HBase 进 行 详 细 的 设 
置 ， 以 提高 系统 的 可 靠 性 和 执行 速度 。 


12.2.1 HBase 的 安装 


HBase 有 三 种 运行 模式 ， 其 中 单机 模式 的 配置 非常 简单 ， 几 乎 不 
用 对 安 流 文件 做 任何 修改 束 可 以 使 用 。 如 采 要 运行 分 布 式 模式 ， 
Hadoop 是 必 不 可 少 的 。 另 外 在 对 HBase 的 某 些 文件 进行 配置 之 前 ， 还 
需要 具备 以 下 先决 条 件 : 


1) Java: 需要 安装 Java 1.6.x 以 上 的 版 本 ， 推 荐 从 SUN 官 网 下 载 ， 
下 载 地 址 为 : http: /www.java.com/download/。 在 Ubuntu 下 可 以 使 用 


下 面 命令 安 逆 Java: 
sudo apt-get install sun-java6-jdk 


ARH 2 AE BI Ce at, 1k HN eat 。 


2) Hadoop: 由 于 HBase 架 构 是 基于 其 他 文件 存储 系统 的 ， 因 此 在 
分 布 式 模式 下 安装 Hadoop 是 必须 的 。 但 是 ， 如 果 运 行 在 单机 模式 下 ， 
此 条 件 可 以 省 略 。 


注意 ” 安 狼 Hadoop 的 上 时候， 要 注意 HBase 的 版 本 。 也 就 是 说 ， 需 
要 注意 Hadoop 和 HBase 之 间 的 版 本 关系 ， 如 末 不 匹配 ， 很 可 能 会 影 啊 
HBase 系 统 的 稳定 性 。 在 HBase 的 lib 目 录 下 可 以 看 到 对 应 的 Hadoop 的 
JAR 文 件 。 默 认 情 况 下 ，HBase 的 lib 文 件 夹 下 对 应 的 Hadoop 版 本 相对 
稳定 。 如 采用 户 想 要 使 用 其 他 的 Hadoop 版 本 ， 那 么 需要 将 Hadoop 系 统 
安装 目录 hadoop-*.*.*-core.jar 文 件 和 hadoop-#.*.*-test.jar 文 件 复 制 到 
HBase 的 lib 文 件 夹 下 ， 以 符 换 其 他 版 本 的 Hadoop 文 件 。 


另外 ， 如 采 读 者 想 要 对 HBase 的 数据 存储 有 更 好 的 了 解 ， 建 议 碍 
看 关于 HDFS 的 更 多 详细 资料 。 此 部 分 不 是 本 章 所 关注 的 内 容 ， 故 不 


FEE o 


3) SSH: 需要 注意 的 是 ，SSH 是 必须 安装 的 ， 并 且 要 保证 用 户 可 
以 SSH 到 系统 的 其 他 节点 (包括 本 地 节点 ) 。 因 为 ， 我 们 需要 使 用 
Hadoop 来 管理 远程 Hadoop 和 HBase 守 护 进 程 。 


关于 其 他 外 部 条 件 ， 我 们 可 以 在 使 用 的 过 程 中 再 具体 配置 ， 详 细 
内 容 见 12.2.2 节 。 下 面 我 们 将 具体 介绍 HBase 在 三 种 模式 下 的 安装 过 
程 。 


LENNA R 


HBase KRFA Tae Pe sche PRAY, EE i HBase 
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HDFS。 用 户 可 以 通过 下 面 的 命令 将 其 解压 : 


tar xfz hbase-0.92.1.tar.gz 
cd hbase-0.92.1 


在 运行 之 前 ， 建 议 用 户 修 改 ${HBase-Dir}/conf/hbase-site.xml 文 
件 。 此 文件 是 HBase 的 配置 文件 ， 通 过 它 可 以 更 改 HBase 的 基本 配置 。 
另外 还 有 一 个 文件 为 hbase-default,xml， 它 是 HBase 的 默认 配置 文件 。 
我 们 可 以 通过 这 两 个 文件 中 的 任意 一 个 来 修改 HBase 的 配置 参数 ， 并 
且 它 们 二 者 的 配置 方法 也 完全 相同 。 但 是 同样 一 个 参数 如 果 在 hbase- 
site.xml 中 配置 了 ， 那 么 它 就 会 覆盖 掉 hbase-default,xml 中 的 同一 个 配 
置 。 也 就 是 说 ， 同 样 一 个 配置 参数 ，hbase-site.xml 中 的 配置 将 发 挥 作 
用 。 建 议 用 户 修 改 hbase-site.xml 中 的 配置 ， 而 hbase-default.xml 中 的 配 
置 默 认 保持 不 变 ， 这 样 当 hbase-site.xml 中 配置 错误 上 时， 其 默认 配置 可 
以 保证 用 户 能 够 快速 地 对 Hbase 配 置 进 行 恢复 。 例 如 ， 需 要 修改 的 内 容 
如 下 所 示 : 


<configuration> 

<property> 

<name>hbase.rootdir</name> 

<value>file: ///tmp/hbase-${user.name}/hbase</value> 
</property> 


</configuration> 


从 上 面 可 以 看 到 ， 默 认 情 况 下 HBase 的 数据 是 存储 在 根 目录 的 tmp 
文件 夹 下 的 。 熟 悉 Linux 的 用 户 知 道 ， 此 文件 夹 为 临时 文件 夹 。 也 就 是 
说 ， 当 系统 重启 的 时 候 ， 此 文件 夹 中 的 内 容 将 被 清空 。 这 样 用 户 保 存 
在 HBase 中 的 数据 也 会 丢失 ， 这 当然 是 用 户 不 想 看 到 的 事情 。 因 此 ， 

用 户 需 要 将 HBase 数 据 的 存储 位 置 修改 为 自己 希望 的 存储 位 置 。 


2. 仿 分 布 模式 安 次 


伪 分 布 模式 是 一 个 运行 在 单个 节点 〈 单 台 机 器 ) 上 的 分 布 式 模 
式 ， 此 种 模式 下 HBase 所 有 的 守护 进程 将 运行 在 同一 个 市 点 之 上 。 由 
于 分 布 式 模式 的 运行 需要 依赖 于 分 布 式 文件 系统 ， 因 此 此 时 必须 确保 
HDFS 已 经 成 功 运行 。 用 户 可 以 在 HDFS 系 统 上 执行 Put 和 Get 操 作 来 验 
证 HDFS 是 否 安装 成 功 。 关 于 HDFS 集 群 的 安装 ， 请 读者 参看 其 他 章节 


的 介绍 。 


一 切 准 备 就 绪 后 ， 我 们 开始 配置 HBase 的 参数 ( 即 配 置 hbase- 
site.xml 文 档 ) 。 通 过 设 定 hbase.rootdir 参 数 来 指定 HBase 的 数据 存放 位 
置 ， 进 而 让 HBase 运 行 在 Hadoop 之 上 ， 如 图 12-1 所 示 。 上 有 具体 配置 如 下 
所 示 : 


<configuration> 
<property> 
<name>hbase.rootdir</name> 


<value>hdfs: //localhost: 9000/hbase</value> 

<description> 此 参数 指定 了 HReion 服 务 器 的 位 置 ， 即 数据 存放 位 置 。 

</description> 

</property> 

<property> 

<name>dfs.replication</name> 

<value >1</value> 

<description> 此 参数 指定 了 Hlog 和 Hfile 的 副本 个 数 ， 此 参数 的 设置 不 能 大 于 
HDFS 的 节点 数 。 伪 

分 布 模式 下 DataNode 只 有 一 台 ， 因 此 此 参数 应 设置 为 1 。 

</description> 

</property> 


</configuration> 


注意 ”hbase.rootdir 指 定 的 目录 需要 Hadoop 自 己 创建 ， 否 则 可 能 
现 警 告 提示 。 由 于 目录 为 空 ，HBase 在 检查 目录 时 可 能 会 报 所 需要 的 
文件 不 存在 的 错误 。 


对 于 完全 分 布 式 HBase 的 安装 ， 我 们 需要 通过 hbase-site.xml 文 档 来 
配置 本 机 的 HBase 特 性 ， 通 过 hbase-env.sh 来 配置 全 局 HBase 集 群 系统 的 
特性 ， 也 就 是 说 每 一 台 机 器 都 可 以 通过 hbase-env.sh 来 了 解 全 局 的 
HBase 的 某 些 特性 。 另 外 ， 各 个 HBase 实 例 之 间 需 要 通过 ZooKeeper 来 
进行 通信 ， 因 此 我 们 还 需要 维护 一 个 〈 一 组 ) ZooKeeper 系 统 。 


下 面 我 们 将 以 3 台 机 器 为 例 ， 介 绍 如 何 进行 配置 。3 台 机 妖 的 hosts 
配置 如 下 所 示 : 


10.77.20.100 master 
10.77.20.101 slave1 


10.77.20.102 slave2 


假设 我 们 已 经 配置 完成 Hadoop/HDEFS 和 ZooKeeper 1 ， 下 面 介绍 
HBase 的 配置 。 


(1) conf/hbase-site. xml 文 件 的 配置 


hbase. rootdir 和 hbase.cluster.distributed 两 个 参数 的 配置 对 于 HBase 
来 说 是 必需 的 。 我 们 通过 hbase.roodir 来 指定 本 台 机 器 HBase 的 存储 目 
录 ; 通过 hbase.cluster.distributed 来 说 明 其 运行 模式 (true 为 全 分 布 模 
式 ，false 为 单机 模式 或 伪 分 布 模式 ) ; 另外 hbase.master 指 定 的 是 
HBase 的 master 的 位 置 ，hbase.zookeeperquorum 指 定 的 是 ZooKeeper 集 


群 的 位 置 。 如 下 所 示 为 示例 配置 文档 : 


<configuration> 

<property> 

< name > hbase.rootdir < /name > 
</property> 

<property> 

<name> hbase.cluster.distributed< /name> 
<value >true</value> 

<description> 指 定 HBase 运 行 的 模式 : 

false: 单机 模式 或 伪 分 布 模式 

true: 完全 分 布 模式 

</description> 

</property> 

<property> 

< name > hbase .master </name> 

<value >hdfs: //master: 60000</value> 
<description> fs#eMaster fie </description> 
</property> 

<property> 

< name > hbase. zookeeper . quorum< /name > 
<value>master, slave1, slave2</value> 


B 


HÆ ZOOKeeper Sef < /description> 


<description> f 
</property> 


</configuration> 


(2) conf/regionservers 的 配置 


regionservers 文 件 列 出 了 所 有 运行 HBase RegionServer CHRegion 
Server 的 机 器 。 此 文件 的 配置 和 Hadoop 的 slaves 文 件 十 分 类 似 ， 每 一 行 
指定 一 台 机 器 。 当 HBase 启 动 的 时 候 ， 会 将 此 文件 中 列 出 的 所 有 机 器 
启动 ; 同样 ， 当 HBase 关 闭 的 时 候 ， 也 会 同时 上 自动 读 取 文 件 并 将 所 有 
机 器 关闭 。 


在 我 们 的 配置 中 ，HBase Master 及 HDFS NameNode 运 行 在 
hostname 为 Master 的 机 右上 ，HBase RegionServers 运 行 在 master、 
slavel 和 slave2 上 。 根 据 上 述 配 置 ， 我 们 只 需 将 每 台 机 絮 上 HBase 安 装 
目录 下 的 conf/regionservers 文 件 的 内 容 设 置 为 : 

master 


slavel 
slave2 


另外 ， 我 们 可 以 将 HBase 的 Master 和 HRegionServer 服 务 恬 分 开 。 
这 样 只 需 在 上 述 配 置 文件 中 删除 master 一 行 即 可 。 


(3) ZooKeeper 的 配置 


完全 分 布 式 的 HBase 集 群 需要 ZooKeeper 实 例 运行 ， 并 且 需 要 所 有 
的 HBase 他 把 能 够 与 ZooKeeper 实 例 通 信 。 默 认 情 况 HBase 目 映 维护 
着 一 组 默认 的 ZooKeeper 实 例 。 不 过 ， 用 户 可 以 配置 独立 的 ZooKeeper 
实例 ， 这 样 能 够 使 HBase 系 统 更 加 健壮 。 


conf/hbase-env. sh 配置 文档 中 HBASE_MANAGES_ZK 的 默认 值 为 
true， 它 表示 HBase 使 用 上 自身 所 市 的 ZooKeeper 实 例 。 但 是 ， 该 实例 只 
能 为 单机 或 伪 分 布 模式 下 的 HBase 提 供 服务 。 当 安装 全 分 布 模式 时 需 
要 配置 自己 的 ZooKeeper 实 例 。 在 HBase-site.xml 文 档 中 配置 了 
hbase.zookeeper.quorum 属 性 后 ， 系 统 将 有 限 使 用 该 属性 所 指定 的 
ZooKeeper¥!] 7 ° IKE, 47HBASE MANAGES ZK ÁX true, J 
么 在 启动 HBase 时 ，Hbase 将 把 ZooKeeper 作 为 自身 的 一 部 分 运行 ， 其 
对 应 进程 为 “HQuorumPeer”; 大 该 变量 值 为 false， 那 么 在 局 动 HBase 之 
前 必须 首先 手动 运行 hbase.zookeeper.quorum 属 性 所 指定 的 ZooKeeper 集 
群 ， 其 对 应 的 进程 将 显示 为 QuorumPeerMain 。 


关于 Zookeeper 的 安装 与 配置 详 见 第 15 章 。 


知 将 ZooKeeper 作 为 HBase 的 一 部 分 来 运行 ， 那 么 当 关 闭 HBase 时 
Zookeeper 将 被 目 动 关 团 ， 否 则 需要 手动 停止 ZooKeeper 服 务 。 


[1] Hadoop 和 ZooKeeper 的 配置 请 参看 本 书 相关 草 节 。 


12.2.2 ”运行 HBase 


前 面 说 了 ，HBase 有 三 种 运行 模式 ， 不 同 模式 下 局 动 或 停止 HBase 
服务 的 步 又 稍 有 不 同 ， 另 外 还 有 一 些 需要 注意 的 事项 。 下 面 ， 我 们 将 
分 情况 具体 讲解 如 何在 三 种 模式 下 启动 /停止 HBase 服 务 。 


1. 单 机 模式 


单机 模式 下 直接 运行 下 面 的 命令 即 可 : 


start-hbase.sh 


局 动 成 功 后 用 户 可 以 看 到 如 图 12-2 所 示 的 界面 。 


ntu:-$ start-hbese.sh 
mg saster, Logging to /home/hadoop/Downloads/hbase-8. $2. 1/logs/hbase-hadoop-naster-ebuntu_out 
it: pps 


12-2 启动 HBase 


从 图 中 可 以 看 出 ，HBase 首 移 启动 成 功 后 ， 通 过 jps 命 令 可 以 查看 
到 HMaster 的 进程 。 要 停止 HBase 服 务 ， 直 接 在 终端 中 输入 下 面 的 命令 
即 可 : 


stop-hbase.sh 


在 停止 过 程 中 用 户 会 看 到 如 图 12-3 所 示 的 界面 。 


12-3 停止 HBase 


下 面 我 们 查看 HBase 的 存储 日 录 ， 可 以 看 到 关于 HBase 的 数据 如 
12-4 所 示 : 


12-4 HBase 数 据 存储 目录 


2. 伪 分 布 模式 


由 于 伪 分 布 模式 的 运行 基于 HDFS， 因 此 在 运行 HBase 之 前 首先 需 
要 启动 HDFS。 启 动 HDFS 可 以 使 用 如 下 命令 : 


start-dfs. sh 
详细 信息 参见 第 9 章 的 内 容 。 


这 之 后 的 其 他 步 又 与 单机 模式 相同 ，HBase 司 动 成 功 后 ， 可 以 通 
过 jps 查 看 此 时 系统 java 进 程 ， 如 下 图 12-5 所 示 。 


hadoopgs Lawe3:—/Softwere/htese-8.92.1/bin$ -/start Se e.sh 
starting master, a a. to frame loop /So ftwar e/bbas 8 .92.1/ logs/hbase-hadoop-saster-slave3. out 
D 


Al 12-5 伪 分 布 模式 HBase 的 启动 
3. 完 全 分 布 模式 


完全 分 布 模式 与 伪 分 布 模式 相同 ， 在 运行 HBase 之 前 需要 保证 
HDFS 已 经 成 功 启动 。 此 时 ， 只 需要 在 NameNode (〈 即 HBase Master) 
上 运行 start-hbase.sh 即 可 。HBase 的 局 动 顺序 为 : HDFS- > ZooKeeper- 
>HBase。 因 此 我 们 首先 在 运行 ZooKeeper 的 机 器 上 局 动 ZooKeeper 服 


务 。 运 行 如 下 命令 


zkServer.sh start 


ZooKeeper 运 行 成 功 后 ， 机 器 上 会 出 现 QuorumPeerMain 进 程 。 图 
12-6 所 示 为 全 分 布 模式 HBase 的 启动 过 程 ， 局 动 成 功 后 通过 JPS 命 令 可 
以 查看 运行 的 QuorumPeerMainj 进 程 。 


hadcopemaster;~$ start-hba 
starting master Logging to a oe madoop/hadoop-1,6.1/hhase-8, 92. 1/logs/hbase-h 
ste t 


regionserver, logging to /home/hadoop/hadoop-1.6.1/hbase- 6.32 
server -sla out 
p/hadoop-1.8.1/hbase-6.92 


e/hadoop/hadeop-1.0.1/Mase-@.92, 
out 


15698 QuorwePeerMain 

15041 NeneNode 

18173 HAegionServer 
rac 


12-6 ”完全 分 布 模式 HBase 的 启动 


进入 HBase Shell， 输 入 status 命 令 ， 若 看 到 如 下 结果 ， 证 明 HBase 


hbase (main) : 001: 0>status 
3 servers, 0 dead, 0.6667 average load 


另外 ， 当 HBase 运 行 后 ， 通 过 jps 命 令 可 以 查看 系统 进程 : 在 Hbase 
配置 文件 一 regionservers 对 应 的 机 右上 将 会 出 现 HRegionServer 进 程 ; 
在 HBase 配 置 文件 一 hbase-site.xml 对 应 的 Hbase.master 对 应 的 机 器 将 出 
现 HMaster 进 程 ， 在 HBase 配 置 文件 一 hbase-site.xzm 对 应 的 
hbase.zookeeper.quorum#) Las 7!) XRH H HLQuorumPeerMain/HQuorumPeer 
进程 。 


12.2.3 HBase Shell 
HBase 为 用 户 提供 了 一 个 非常 方便 的 使 用 方式 ， 我 们 称 之 为 HBase 
Shell ° 


HBase Shell 提 供 了 大 多 数 的 HBase 命 令 ， 通 过 HBase Shell 用 户 可 
以 方便 地 创建 、 删 除 及 修改 表 ， 还 可 以 同 表 中 添加 数据 、 列 出 表 中 的 
相关 信息 等 。 


在 启动 HBase 之 后 ， 用 户 可 以 通过 下 面 的 命令 进入 HBase Shell 之 


hbase shell 


成 功 进入 之 后 ， 用 户 会 看 到 图 12-7 所 示 的 界面 。 


Ser tex oni oe ees 48 POT 2616 


Bubunty: ~# Mase shel 
ell; enter "helpsteTnn list of supported commands 
8.28.6, r5 
a 8 


12-7 HBase Shell 


进入 HBase Shell， 输 入 help 之 后 ， 可 以 获取 HBase Shell 所 支持 的 
命令 ， 如 表 12-1 所 示 。 


je 12-1 HBase Shell 命令 


HBase Shell 命令 摘 述 
alter 修改 列 族 《Column Family) 模式 
count 统计 表 中 行 的 数量 
create 创建 表 
describe 显示 家 相关 的 详细 信息 
delete MERR EHR CALA. fe. ADA. Bob al CAE eRe ie) RAY (> 
deleteall 删除 指定 行 的 所 有 元 素 值 
disable 使 表 无 效 
drop MEK 
enable 使 表 有 效 
exists 测试 表 是 否 存 在 
exit Wi il) HBase Shell 
get depp HITE (cell) 的 值 
iner 增加 指定 表 、 行 或 列 的 值 
list 列 出 HBase 中 存在 的 所 有 表 
put 向 指定 的 表单 元 添加 慎 
tools 列 出 HBase 所 支持 的 工具 
scan 通过 对 胡 的 扫 措 来 获取 对 应 的 值 
status 3.8) HBase 集群 的 状态 信息 
shutdown 关闭 HBase 集群 “与 exit 不同) 
truncate 重新 创建 指定 表 
version Ze BL HBase hg 40474 E 


需要 注意 shutdown 操 作 与 exit 操 作 之 间 的 不 同 : shutdown 表 示 关 闭 
HBase 服 务 ， 必 须 重新 启动 HBase 才 可 以 恢复 ; exit 只 是 退出 HBase 
shell， 退 出 之 后 完全 可 以 重新 进入 。 


下 面 ， 我 们 将 详细 介绍 第 用 的 HBase 命 令 及 其 使 用 方法 。 


(1) create 


create 用 于 通过 表 名 及 用 逗号 分 隔 开 的 列 族 信息 来 创建 表 ， 操 作 如 
F: 


Fil 


UEN: 


hbase>create't1', {NAME=>'f1', VERSIONS=>5} 


2) 形式 二 : 


hbase>create't1', {NAME=>'f1'}, {NAME=>'f2'}, {NAME=> 'f3'} 
hbase># 


上 面 的 命令 可 以 人 简写 为 下 面 所 示 的 格式 : 


hbase>create't1', 'f1', 'f2', 'f3' 


3) Fext=: 


hbase>create't1', {NAME=>'f1', VERSIONS=>1, TTL=>2592000, 
BLOCKCACHE=> true} 


下 面 以 "NAME=>' 人 ”为 例 具体 说 明 ， 其 中 ， 列 族 参 数 的 格式 
箭头 左 侧 为 参数 变量 ， 右 侧 为 参数 对 应 的 值 ， 并 用 “=> ?分开 。 


(2) list 
通过 list 命 令 列 出 所 有 HBase 中 包含 的 表 的 名 称 ， 操 作 如 下 : 


hbase (main) : 011: 0>1ist 

hbase_tb 

test 

2 row (s) in 0.0160 secondshbase> list 


(3) put 


put 用 于 癌 指 定 的 HBase 表 单元 添加 值 ， 例 如 ， 癌 表 t1 的 行 r1、 列 
cl: 1 添加 值 v1， 并 指定 时 间 惟 为 ts 的 操作 如 下 ; 


hbase>put't1', 'r1', 'c1: 1', 'vl', ts 


(4) scan 


scan 用 于 获取 指定 表 的 相关 信息 ， 与 create 命 令 类 似 ， 可 以 通过 去 


号 分 隔 的 命令 来 指定 扫描 参数 。 


例如 ， 获 取 表 test 的 所 有 值 的 操作 如 下 : 


hbase (main) : 001: 9>scan'test' 

ROW COLUMN+CELL 

ri column=ci: 1, timestamp=1295692753859, value=value1-1/1 
ri column=ci: 2, timestamp=1295692662360, value=value1-1/2 
ri column=ci: 3, timestamp=1297476019872, value=value1-1/3 
ri column=c2: 1, timestamp=1297475967537, value=value1-2/1 


获取 表 test 的 c1 列 的 所 有 值 的 操作 如 下 : 


hbase (main) : 002: 0>scan'test', {COLUMNS=> 'c1'} 

ROW COLUMN+CELL 

ri column=ci: 1, timestamp=1295692753859, value=value1-1/1 
ri column=ci: 2, timestamp=1295692662360, value=value1-1/2 
ri column=ci: 3, timestamp=1297476019872, value=value1-1/3 
r2 column=ci: 1, timestamp=1297476064414, value=value2-1/1 


2row (s) in 0.0100 seconds 


获取 表 test 的 c1 列 的 前 一 行 的 所 有 值 的 操作 如 下 : 


hbase (main) : 012: 0>scan'test', {COLUMNS=> 'c1', LIMIT=>1} 


ROW COLUMN+CELL 


ri column=ci: 1, timestamp=1295692753859, value=value1-1/1 
ri column=ci: 2, timestamp=1295692662360, value=value1-1/2 
ri column=ci: 3, timestamp=1297476019872, value=value1-1/3 


1 row (s) in 0.0120 seconds 


(5) get 


get 用 于 获取 行 或 单元 的 值 。 此 命令 可 以 指定 表 名 


选 的 列 值 和 时 间 戳 。 


获取 表 test 行 r1 的 值 的 操作 如 下 : 


hbase (main) : 002: 0>get'test', 'r1' 


COLUMN CELL 


c1: 1 timestamp=1295692753859, 
c1: 2 timestamp=1295692662360, 
c1: 3 timestamp=1297476019872, 
c2: 1 timestamp=1297475967537, 
c2: 2 timestamp=1297476039968, 


5 row (s) in 0.0450 seconds 


value=valuei1-1/1 
value=value1-1/2 
value=value1-1/3 
value=value1-2/1 
value=value1-2/2 


获取 表 test 行 r1 列 cl1: 1 的 值 的 操作 如 下 : 


hbase (main) : 005: 0>get'test '， 


COLUMN CELL 


c1: 1 timestamp=1295692753859, 


1 row (s) in 0.0050 seconds 


value=value1-1/1 


` 行 值 ， 以 及 可 


'r1', {COLUMN=>'c1: 1'} 


需要 注意 的 是 ，COLUMN 和 COLUMNS 是 不 同 的 ，scan 操 作 中 的 
COLUMNS 指 定 的 是 表 的 列 族 ，get 操 作 中 的 COLUMN 指 定 的 是 特定 的 
列 ，COLUMN 的 值 实质 上 为 “ 列 族 +: + 列 修 饰 符 ”。 


另外 ， 在 shell 中 ， 常 量 不 需要 用 引号 括 起 来 ， 但 二 进 制 的 值 需 
用 双 引 号 括 起 来 ， 而 其 他 值 则 用 单 引 号 括 起 来 。HBase Shell 的 常量 6 
以 通过 在 shell 中 输入 “Object.constants” 命 令 来 查看 。 


代码 清单 12-1 所 示 是 一 个 使 用 HBase Shell 操 作 的 具体 例子 。 
代码 清单 12-1 HBase Shell 操 作 


hbase (main) : 004: 0>create'test', 'c1', 'c2' 
© row (s) in 1.0620 seconds 

hbase (main) : 005: @>list 

test 
1 row (s) in 0.0090 seconds 

hbase (main) : 006: ©>put'test', 'r1', 'c1: 1', 'value1-1/1' 
© row (s) in 0.0050 seconds 

hbase (main) : 007: @>put'test', 'ri', 'c1: 2', 'valuei-1/2' 
© row (s) in 0.0060 seconds 

hbase (main) : 008: ©>put'test', 'r1', 'c1: 3', 'value1-1/3' 
© row (s) in 0.0110 seconds 

hbase (main) : 009: O>put'test', 'r1', 'c2: 1', 'value1-2/1' 
© row (s) in 0.0040 seconds 

hbase (main) : 010: O>put'test', 'r1', 'c2: 2', 'value1-2/2' 
© row (s) in 0.0030 seconds 

hbase (main) : 011: O>put'test', 'r2', 'c1: 1', 'value2-1/1' 
© row (s) in 0.0030 seconds 

hbase (main) : 012: O>put'test', 'r2', 'c2: 1', 'value2-2/1' 
© row (s) in 0.0040 seconds 

hbase (main) : 013: 0>scan'test' 

ROW COLUMN+CELL 

ri column=ci: 1, timestamp=1297513518032, value=value1-1/1 
ri column=ci: 2, timestamp=1297513531036, value=value1-1/2 
ri column=ci: 3, timestamp=1297513538344, value=value1-1/3 
ri column=c2: 1, timestamp=1297513553055, value=value1-2/1 


ri column=c2: 2, timestamp=1297513560121, value=value1-2/2 
r2 column=ci: 1, timestamp=1297513580833, value=value2-1/1 
r2 column=c2: 1, timestamp=1297513594789, value=value2-2/1 
2 row (s) in 0.0260 seconds 

hbase (main) : 014: @>get'test', 'r1', {COLUMN=>'c2: 2'} 
COLUMN CELL 

c2: 2 timestamp=1297513560121, value=value1-2/2 

1 row (s) in 0.0140 seconds 

hbase (main) : 015: 0>disable'test' 

0 row (s) in 0.0930 seconds 

hbase (main) : 016: 0>drop'test' 

0 row (s) in 0.0770 seconds 

hbase (main) : 017: 0>exit 


12.2.4 HBase 配 置 


天 于 HBase 的 所 有 配置 人 参数， 用户 可 以 通过 查看 conf/hbase- 
default.xml 文 件 获知 。 每 个 参数 通过 property 节 点 来 区 分 ， 其 配置 方式 
与 Hadoop 的 相同 : name 字 段 表示 参数 名 ，value 字 段 表示 对 应 参数 的 
值 ，description 字 段 表 示 参 数 的 描述 信息 ， 相 当 于 注释 的 作用 。 


配置 参数 的 格式 如 下 所 示 : 


<configuration> 

<property> 

< name > ALB EX < /name > 

< value > 配置 参数 对 应 取 值 </valLue > 
<description> 描 述 信息 </description> 
</property> 


</configuration> 


此 ， 如 采 要 对 HBase 进 行 配置 ， 修 改 conf/hbase-default.xml 文 件 
或 conffhbase-site.xml 文 件 中 的 property 世 点 即 可 (被 <property> 
</peoperty> 所 包含 的 部 分 ) 。 


限于 篇 幅 ， 下 面 我 们 只 针对 比较 重要 的 几 个 参数 做 简单 的 介绍 。 


(1) hbase. client.write.buffer 


THERE SARK REA), DETAR, BUG 
ABAP XN BEA AQMB ° ARS er aL EC HD BY DAR sch SER E 
BE, (ELUM eK A I ARS ee) FE, Ale BR 
据 实 际 情况 进行 设置 。 


(2) hbase. master.meta.thread.rescanfrequency 
Haster H fis ROOTAIMETA RASKT H Ala, AENA, BR 


值 为 60 000284 ° IMENT), TRS RES A 
候 ， 否 则 频繁 地 扫描 ROOT 和 META 表 将 严重 影响 系统 的 性 能 。 


(3) hbase. regionserver.handler.count 


Pia A AR ae ARS AY, AR SS ae TCE SP ig TRE LA 
一 个 队列 中 ， 然 后 服务 器 通过 轮 询 的 方式 对 其 进行 处 理 。 这 样 每 一 个 
请 求 哆 会 产生 一 个 线程 。 此 值 要 根据 实际 情况 设置 ， 建 议 设 置 得 大 一 
些 。 该 值 指出 RegionServer 上 等 待 处 理 请 求 的 实例 数目 ， 默 认为 10。 在 
服务 希 端 写 数据 缓存 所 消耗 的 内 存 大 小 为 : 


hbase.client.write.buffer*hbase.regionserver.handler.count ° 


(4) hbase. hregion.max.filesize 


通过 此 参数 可 以 设置 Hregion 中 Stove 文 件 的 最 大 值 ， 以 字 太 为 单 
位 。 当 表 中 的 列 族 超 过 此 值 时 ， 文 件 将 被 分 割 。 其 默认 大 小 为 


256MB ° 
(5) hfile. block.cache.size 


该 参数 表示 HFile/StoreFile 缓 存 所 占 Java 虚 拟 机 堆 大 小 的 百分比 ， 
默认 值 为 0.2， 即 209%。 将 其 值 设 置 为 0 表示 花 用 此 选项 。 


(6) hbase. regionserver.global.memstore.upperLimit 


该 参数 表示 在 Region 服 务 器 中 所 有 的 memstore 所 占用 的 Java 虚 拟 
机 比例 的 最 大 值 ， 默 认 值 为 0.4， 即 40%。 当 memstore 所 占用 的 空间 超 
过 此 值 时 ， 更 狐 操 作 将 被 阻塞 ， 并 且 所 有 的 内 容 将 被 强制 写 出 。 


(7) hbase. hregion.memstore.flush.size 


如 有 果 memstore 绥 存 的 内 容 大 小 超过 此 参数 所 设置 的 值 ， 那 么 它 将 
家 写 到 磁盘 上 。 该 参数 的 默认 值 为 64MB 。 


另外 ， 在 配置 文档 中 还 有 很 多 关于 ZooKeeper 配 置 的 参数 ， 如 
Zoo0keeper.Session.timeoout、 以 hbase.zookeeper 开 头 的 参数 以 及 以 
hbase.zookeeper.property 开 类 的 一 些 参数 。 限 于 篇 幅 这 里 不 再 歼 述 ， 关 
于 ZooKeeper 更 详细 的 配置 见 第 15 莉 。 


12.3 HBase 体 系 结构 


HBase 的 服务 硕 体 系 结构 遵从 简单 的 主 从 服务 促 架 构 ， 它 由 
HRegion 服 务 器 (HRegion Server) 群 和 HBase Master 服 务 器 (Hbase 
Master Server) 构成 。HBase Master 服 务 器 负责 管理 所 有 的 HRegion 服 
务 策 ， 而 HBase 中 所 有 的 服务 器 都 是 通过 ZooKeeper 来 进行 协调 并 处 理 
HBase 服 务 器 运行 期 间 可 能 遇 到 的 错误 。HBase Master 服 务 嚣 本身 并 不 
存储 HBase 中 的 任何 数据 ，HBase 逻 辑 上 的 表 可 能 会 被 划分 成 多 个 
HRegion， 然 后 存储 到 HRegion 服 务 器 群 中 。HBase Maste 服 务 器 中 存 
储 的 是 从 数据 到 HRegion 服 务 絮 的 映射 。 因 此 ，HBase 体 系 结构 如 图 


12-8 所 示 。 
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12.3.1 HRegion 


当 表 的 大 小 超过 设置 值 的 时 候 ，HBase 会 自动 将 表 划 分 为 不 同 的 
区 域 ， 每 个 区 域 包 含 所 有 行 的 一 个 子 集 。 对 用 户 来 说 ， 每 个 表 是 一 堆 
数据 的 集合 ， 靠 主键 来 区 分 。 从 物理 上 来 说 ， 一 张 表 是 被 拆 分 成 了 多 
块 ， - 块 就 是 一 个 HRegion。 我 们 用 表 名 + 开始 /结束 主键 来 区 分 每 一 
个 HRegion。 一 个 HRegion 会 保存 一 个 表 里 面 某 段 连 续 的 数据 ， 从 开始 
主键 到 结束 主键 ， 一 张 完整 的 表格 是 保存 在 多 个 HRegion 上 面 的 。 


12.3.2 HRegion 服 务 器 


所 有 的 数据 库 数据 一 般 是 保存 在 Hadoop 分 布 式 文件 系统 上 面 的 ， 
用 户 通 过 一 系列 HRegion 服 务 器 获取 这 些 数据 。 一 台 机 器 上 一 般 只 运 
行 一 个 HRegion 服 务 器 ， 而 且 每 一 个 区 段 的 HRegion 也 只 会 被 一 个 


HRegion 服 务 器 维护 。 
图 12-9 所 示 为 HRegion 服 务 器 体系 结构 。 


HRegion 服 务 器 包含 两 大 部 分 : HLOG 部 分 和 HRegion 部 分 。 其 中 
HLOG 用 来 存储 数据 日 志 ， 采 用 的 是 先 写 日 志 的 方式 (Write-ahead 
log) 。HRegion 部 分 由 很 多 的 HRegion 组 成 ， 存 储 的 是 实际 的 数据 。 
一 个 HRegion 又 由 很 多 的 Stroe 组 成 ， 每 一 个 Store 存 储 的 实际 上 是 一 个 
列 族 (ColumnFamily) 下 的 数据 。 此 外 ， 在 每 一 个 HStore 中 有 包含 一 
块 MemStore。MemStore 驻 留 在 内 存 中 ， 数 据 到 来 时 首先 更 新 到 
MemStore 中 ， 当 到 达 阐 值 之 后 再 更 新 到 对 应 的 StoreFile (又 名 HFile) 
中 。 每 一 个 Store 包 含 了 多 个 StoreFile, StoreFile 负 责 的 是 实际 数据 存 
储 ， 为 HBase 中 最 小 的 存储 单元 。 


HRegion 服 务 器 
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HBase 中 不 涉及 数据 的 直接 删除 和 更 新 操作 ， 所 有 的 数据 均 通 过 
追加 的 方式 进行 更 新 。 数 据 的 删除 和 更 新 在 HBase 合 并 (compact) 的 
时 候 进 行 。 当 Store 中 StoreFile 的 数量 超过 设 定 的 阐 值 时 将 触发 合并 操 
作 ， 该 操作 会 把 多 个 StoreFile 文 件 合并 成 一 个 StoreFile 。 


当 用 户 需要 更 新 数据 的 时 候 ， 数 据 会 被 分 配 到 对 应 的 HRegion 服 
务 器 上 提交 修改 。 数 据 首先 被 提交 到 HLog 文 件 里 面 ， 在 操作 写 入 
HLog 之 后 ，commit () 调用 才 会 将 其 返回 给 客户 端 。HLog 文 件 用 于 
故障 恢复 。 例 如 某 一 台 HRegionServer 发 生 故 障 ， 那 么 它 所 维护 的 
HRegion 会 被 重 狐 分 配 到 新 的 机 右上 。 这 时 HLog 会 按照 HRegion 进 行 
划分 。 新 的 机 妖 在 加 载 HRegion 的 时 候 可 以 通过 HLog 对 数据 进行 恢 
复 o 


当 一 个 HRegion 变 得 太 过 巨大 、 超 过 了 设 定 的 国 值 时 ，HRegion 服 
3 at Z Val FA HRegion.closeAndSplit () ， 将 此 HRegion 拆 分 为 两 个 ， 并 
且 报 告 给 主 服务 器 让 它 决 定 由 哪 台 HRegion 服 务 需 来 存放 新 的 
HRegion。 这 个 拆 分 过 程 十 分 迅速 ， 因 为 两 个 新 的 HRegion 最 初 只 是 保 
留 原来 HRegionFile 文 件 的 引用 。 这 时 旧 的 HRegion 会 处 于 停止 服务 的 
状态 ， 当 新 的 HRegion 拆 分 完成 并 且 把 引用 删除 了 以 后 ， 旧 的 HRegion 
才 会 删除 。 另 外 ， 两 个 HRegion 可 以 通过 调用 HRegion.closeAndMerge 
O 合并 成 一 个 新 的 HRegion， 当 前 版 本 下 进行 此 操作 需要 两 台 
HRegion 服 务 器 都 停机 。 


12.3.3 HBase Master 服 务 器 


人 台 HRegion 服 务 器 都 会 和 HMaster 服 务 器 通信 ，HMaster 的 主要 


任务 区 是 告诉 每 个 HRegion 服 务 器 它 要 维护 哪些 HRegion 。 


当 一 台新 的 HRegion 服 务 絮 登录 到 HMaster 服 务 器 了 时，HMaster 会 
告诉 它 先 等 待 分 配 数据 。 而 当 一 台 HRegion 死 机 时 ，HMaster 会 把 它 负 
责 的 HRegion 标 记 为 未 分 配 ， 然 后 再 把 它们 分 配 到 其 他 HRegion 服 务 器 
中 o 


如 果 当 前 HBase 已 经 解决 了 之 前 存在 的 SPFO ( 单 点 故障 ) ， 并 且 
HBase 中 可 以 启动 多 个 HMaster， 那 么 它 束 能 够 通过 ZooKeeper 来 保证 
系统 中 总 有 一 个 Master 在 运行 。HMaster 在 功能 上 主要 负责 Table 和 
HRegion 的 管理 工作 ， 具 体 包括 : 


管理 用 户 对 Table 的 增 、 删 、 改 、 查 操作 ; 
管理 HRegion 服 务 器 的 负载 均衡 ， 调 整 HRegion 分 布 ; 


在 HRegion 分 有 裂 后 ， 负 责 新 HRegion 的 分 配 ; 


在 HRegion 服 务 咒 停机 后 ， 负 责 失 将 HRegion 服 务 右 上 的 HRegion 
移 。 


出 


12.3.4 ROOT 表 和 META 表 


在 开始 这 部 分 内 容 之 前 ， 我 们 先 来 看 一 下 HBase 中 相关 的 机 制 古 
经 样 的。 之 前 我 们 说 过 HRegion 征 按照 表 名 和 主键 范围 来 区 分 的 ， 由 
于 主键 范围 是 连续 的 ， 所 以 一 般 用 开始 主键 区 可 以 表示 相应 的 
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不 过 ， 因 为 我 们 有 合并 和 分 割 操 作 ， 如 果 正 好 在 执行 这 些 操作 的 
过 程 中 出 现 死机 ， 那 么 就 可 能 存在 多 份 表 名 和 开始 主键 相同 的 数据 ， 
这 样 的 话 只 有 开始 主键 就 不 够 了 ， 这 就 要 通过 HBase 的 元 数据 信息 来 
区 分 哪 一 份 才 是 正确 的 数据 文件 ， 为 了 区 分 这 样 的 情况 ， 每 个 
HRegion 都 有 一 个 regionId' 来 标识 它 的 唯一 性 。 


所 以 一 个 HRegion 的 表达 符 最 后 是 : 表 名 + 开始 主键 + 唯一 ID 
(tablename+startkey+regionId) 。 我 们 可 以 用 这 个 识别 符 来 区 分 不 同 
的 HRegion， 这 些 数 据 就 是 元 数据 (META) ， 而 元 数据 本 身 也 是 被 保 
存在 HRegion 里 面 的 ， 所 以 我 们 称 这 个 表 为 元 数据 表 (METATable) ， 

里 面 保 存 的 就 是 HRegion 标 识 符 和 实际 HRegion 服 务 器 的 映射 关系 。 


元 数据 表 也 会 增长 ， 并 且 可 能 被 分 割 为 几 个 HRegion， 为 了 定位 
这 些 HRegion， 我 们 采用 一 个 根 数 据 表 (ROOT table) ， 它 保存 了 所 有 


元 数据 表 的 位 置 ， 而 根 数 据 表 是 不 能 被 分 割 的 ， 水 远 只 存在 一 个 
HRegion ° 


在 HBase 启 动 的 时 候 ， 主 服务 器 先 去 扫描 根 数据 表 ， 因 为 这 个 表 
只 会 有 一 个 HRegion， 所 以 这 个 HRegion 的 名 字 是 被 写 死 的 。 当 然 要 把 
根 数据 表 分 配 到 一 个 HRegion 服 务 器 中 需要 一 定 的 时 间 。 


当 根 数据 表 被 分 配 好 之 后 ， 主 服务 器 整 会 扫 搬 根 数 据 表 ， 获 取 元 
数据 表 的 名 子 和 位 置 ， 然 后 把 元 数据 表 分 配 到 不 同 的 HRegion 服 务 器 
中 。 最 后 束 古 扫 摘 元 数据 表 ， 找 到 所 有 HRegion 区 域 的 信息 ， 把 它们 
分 配给 不 同 的 HRegion 服 务 器 。 


主 服务 絮 在 内 存 中 你 存 厦 当前 活路 的 HRegion 服 务 右 的 数据 ， 
此 如 采 主 服务 器 死机 ， 人 整个 系统 也 豆 无 法 访问 了 ， 这 时 服务 套 的 信息 
也 束 没 有 必要 保存 到 文件 里 面 了 。 


元 数据 表 和 根 数 据 表 的 每 一 行 都 包含 一 个 列 族 (info 列 族 ) : 
info: regioninfo 包 含 了 一 个 串 行 化 的 HRegionInfo 对 象 。 


info: server 保 存 了 一 个 字符 串 ， 是 服务 絮 的 地 址 


HServerAddress.toString () ° 


info: startcode 是 一 个 长 整 型 的 数字 字符 串 ， 它 是 在 HRegion 服 务 


器 启动 的 时 候 传 给 主 服务 器 的 ， 让 主 服务 器 确定 这 个 HRegion 服 务 器 


的 信息 有 没有 更 改 。 


因此 ， 当 一 个 客户 端 拿 到 根 数据 表 地 址 以 后 ， 束 没有 必要 再 连接 
主 服 务 右 了 ， 主 服务 右 的 负载 相对 束 小 了 很 多 。 它 只 会 处 理 超时 的 
HRegion 服 务 右 ， 并 在 局 动 的 时 候 扫 捅 根 数据 表 和 元 数据 表 ， 以 及 返 
回 根 数据 表 的 HRegion 服 务 器 地 址 。 


注意 ROOT 表 包含 META 表 所 在 的 区 域 列表 ，META 表 包含 所 有 
的 用 户 空间 区 域 列 表 ， 以 及 Region 服 务 器 地 址 。 客 户 端 能 够 缓存 所 有 
已 知 的 ROOT 表 和 META 表 ， 从 而 提高 访问 的 效率 。 


12.3.5 ZooKeeper 


ZooKeeper 存 储 的 是 HBase 中 ROOT 表 和 META 表 的 位 置 。 此 外 ， 
ZooKeeper 还 负责 监控 各 个 机 器 的 状态 〈 每 台 机 器 到 ZooKeeper 中 注册 
一 个 实例 ) 。 当 某 台 机 器 发 生 故 障 的 时 候 ，ZooKeeper 会 第 一 时 间 感 知 
到 ， 并 通知 HBase Master 进 行 相应 的 处 理 。 同 时 ， 当 HBase Master 发 生 
故障 的 时 候 ，ZooKeeper 还 负责 HBase Master 的 恢复 工作 ， 能 够 保证 在 
同一 时 刻 系统 中 只 有 一 台 HBase Master 提 供 服务 。 


12.4 HBase 数 据 模 型 


12.4.1 数据 模型 


HBase 是 一 个 类 似 Bigtable 的 分 布 式 数 据 库 ， 它 是 一 个 黎 玖 的 长 期 
存储 的 FERRE) 、 多 维度 的 、 排 序 的 映射 表 。 这 张 表 的 索引 是 
行 关 键 字 、 列 关键 字 和 时 间 戳 。HBase 中 的 数据 都 是 字符 串 ， 没 有 类 
型 。 


用 户 在 表格 中 存储 数据 ， 每 一 行 都 有 一 个 可 排序 的 主键 和 任意 多 
的 列 。 由 于 是 稀疏 存储 ， 同 一 张 表 里 面 的 每 一 行 数据 都 可 以 有 截然 不 
同 的 列 。 


列 名 字 的 格式 是 "<family>: < qualifier>"， 都 是 由 字符 串 组 成 
的 。 每 一 张 表 有 一 个 列 族 集 合 ， 这 个 集合 是 固定 不 变 的 ， 只 能 通过 改 


变 表 结构 来 改变 。 但 是 qualifier 值 相对 于 每 一 行 来 说 都 是 可 以 改变 的 。 


HBase 把 同一 个 列 族 里 面 的 数据 存储 在 同一 个 目录 下 ， 并 且 HBase 
的 写 操作 古 锁 行 的 ， 每 一 行 都 是 一 个 原子 元 素 ， 部 可 以 加 锁 。 


HBase 所 有 数据 库 的 更 新 都 有 一 个 时 间 崔 标记 ， 每 个 更 新 都 是 一 
个 新 的 版 本 ，HBase 会 保留 一 定数 量 的 版 本 ， 这 个 值 是 可 以 设 定 的 。 


ZP vine AY PA eB REE A AT TA) TAR CAL, BE IR 
获取 所 有 版 本 单元 的 值 。 
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BEAT AY ARF PSR SAAR RA, TET EE > ATH 
+ 时 间 戳 或 行 键 + 列 GR: IER) . BURT AEMT ERGE 。 
HBase 征 稀 芒 存储 数据 的 ， 因 此 某 些 列 可 以 是 空白 的 ， 表 12-2 是 对 应 
12.2 市 中 创建 的 test 表 的 数据 概念 视图 。 


表 12-2 HBase 数据 的 概念 视图 


从 上 表 中 可 以 看 出 ，test 表 有 rt1 和 r2 两 行 数据 ， 并 且 有 cl 和 c2 两 个 
列 族 。 在 r1 中 ， 列 族 c1 有 三 条 数据 ， 列 族 c2 有 两 条 数据 ;在 r2 中 ， 列 
族 c1 有 一 条 数据 ， 列 族 c2 有 一 条 数据 。 每 一 条 数据 对 应 的 时 间 戳 都 用 
数字 来 表示 ， 编 号 越 大 表示 数据 越 上 日 ， 反 之 表示 数据 越 新 。 


12.4.3 HEMA 


虽然 从 概念 视图 来 看 每 个 表格 是 由 很 多 行 组 成 的 ， 但 是 在 物理 存 
储 上 面 ， 它 是 按照 列 来 保存 的 ， 这 一 点 在 进行 数据 设计 和 程序 开发 的 
时 候 必须 牢记 。 


上 面 的 概念 视图 在 物理 存储 的 时 候 应 该 表现 成 表 12-3 和 表 12-4 所 示 
的 样子 。 


表 12-3 HBase 数据 的 物理 视图 (1) 


需要 注意 的 是 ， 在 概念 视图 上 面 有 些 列 是 空白 的 ， 这 样 的 列 实际 
上 并 不 会 被 存储 ， 当 请 求 这 些 空白 的 单元 格 时 ， 会 返回 null 值 。 


如 采 在 查询 的 时 候 不 提供 时 间 蕉 ， 那 么 会 返回 距离 现在 最 近 的 那 
一 个 版 本 的 数据 。 因 为 在 存储 的 时 候 ， 数 据 会 按照 时 间 惟 来 排序 。 


12.5 HBase 与 RDBMS 


HBase 束 十 这 样 一 个 基于 列 模式 的 映射 数据 库 ， 它 只 能 表示 很 侧 
单 的 键 -数据 的 映 味 关系 ， 这 大 大 位 化 了 传统 的 关系 数据库 。 与 天 系数 
据 库 相 比 ， 它 有 如 下 特点 : 


数据 类 型 ，HBase 只 有 人 简单 的 字符 串 类 型 ， 所 有 的 类 型 都 是 交 由 
用 户 目 己 处 理 的 ， 它 只 保存 字符 串 。 而 关系 数据 库 有 丰富 的 类 型 选择 
和 存储 方式 。 


数据 操作 : HBase 只 有 很 简单 的 插入 、 碍 询 、 删 除 、 清 空 等 操 
作 ， 表 和 表 之 间 是 分 离 的 ， 没 有 复杂 的 表 和 表 之 间 的 关系 ， 所 以 不 
能 、 也 没有 必要 实现 表 和 表 之 间 的 关联 等 操作 。 而 传统 的 关系 数据 通 
党 有 各 种 各 样 的 画 数 、 连 接 操作 。 


存储 模式 : HBase 是 基于 列 存储 的 ， 每 个 列 族 都 由 几 个 文件 保 
存 ， 不 同 列 族 的 文件 是 分 离 的 。 传 统 的 关系 数据 库 是 基于 表格 结构 和 
行 模式 保存 的 。 


数据 维护 : 确切 地 说 ，HBase 的 更 新 操作 不 应 该 叫做 更 新 ， 虽 然 
一 个 主键 或 列 对 应 新 的 版 本 ， 但 它 的 旧版 本 仍然 会 保留 ， 所 以 它 实 际 
上 是 插入 了 新 的 数据 ， 而 不 是 传统 关系 数据 库 里 面 的 替换 修改 。 


可 伸缩 性 : HBases 这 类 分 布 式 数据 库 丈 是 为 了 这 个 目的 而 开发 出 
来 的 ， 所 以 它 能 够 轻松 地 增加 或 减少 〈 在 硬件 错误 的 时 候 ) 硬件 数 
量 ， 并 且 对 错误 的 兼容 性 比较 高 。 而 传统 的 关系 数据 库 通常 需要 增加 
中 间 层 才能 实现 类 似 的 功能 。 


当前 的 关系 数据 库 基 本 都 是 从 20 世 纪 70 年 代 发 展 而 来 的 ， 它 们 都 
具有 ACID 特 性 ， 并 且 拥 有 丰富 的 SQL 语 言 ， 除 此 之 外 它们 基本 都 有 以 
下 的 特点 ， 面 疝 侯 盘存 储 、 市 有 索引 结构 、 多 线程 访问 、 基 于 锁 的 同 
步 访问 机 制 、 基 于 log 记 录 的 恢复 机 制 等 。 


而 Bigtable 和 HBase 这 些 基 于 列 模式 的 分 布 式 数据 库 ， 更 适应 海量 
存储 和 互联 网 应 用 的 需求 ， 灵 活 的 分 布 式 架构 可 以 使 其 利用 廉价 的 硬 
件 设 备 组 建 一 个 大 的 数据 仓库 。 互 联网 应 用 是 以 字符 为 基础 的 ， 而 
Bigtable 和 HBase 就 是 针对 这 些 应 用 而 开发 出 来 的 数据 库 。 


由 于 HBase 具 有 时 间 稚 特性 ， 所 以 它 生来 瓯 特别 适合 开发 wiki、 
archiveorg 之 类 的 服务 ， 并 且 它 原本 吏 是 作为 搜索 引擎 的 一 部 分 开发 出 
来 的 。 


12.6 HBase 与 HDFS 


伪 分 布 模式 和 完全 分 布 模式 下 的 HBase 运 行 基于 HDFS 文 件 系 统 。 
使 用 HDFS 文 件 系 统 需要 设置 conf/hbase-site.xml 文 件 ， 修 改 
hbase.rootdir 的 值 ， 并 将 其 指向 HDFS 文 件 系统 的 位 置 。 此 外 ，HBase 也 
可 以 使 用 其 他 的 文件 系统 ， 不 过 此 时 需要 重新 设置 hbase.rootdir 参 数 的 
值 。 


12.7 “HBase 客 户 端 


HBase 客 户 端 可 以 选择 多 种 方式 与 HBase 集 群 进行 交互 ， 最 常用 的 
方式 为 Java， 除 此 之 外 还 有 Rest 和 Thrift 接 口 。 


1.Java 


HBase 是 由 Java 编 写 的。 在 后 面 的 章节 中 ， 我 们 将 详细 地 加 大 家 介 
绍 HBase 的 Java API。 用 户 可 以 通过 丰富 的 Java API 接 口 与 HBase 进 行 
互 操 作 ， 并 执行 各 种 相关 探 作 。 详 细 内 容 请 见 12.8 节 。 


2.Rest 和 Thrift 接 口 


HBase 的 Rest 和 Thrift 接 口 支持 XML、Protobuf 和 二 进 制 数据 编码 等 
操作 ° 


(1) Rest 


用 户 可 以 通过 下 面 的 命令 运行 Rest: 
hbase-daemon.sh start rest 


运行 成 功 后 将 显示 如 图 12-10 所 示 的 画面 : 


hadoopevbuntus~$ Mbase- Gaemor 
rest, pe ak tọ pote et gads/Mbasc-0. 97. L logs/Abosc-ħodoop-rest WUntw .out 


hadoo opah untus—$ 


12-10 ”启动 HBase Rest 


用 户 可 以 通过 下 面 的 命令 停止 Rest 服 务 : 


hbase-daemon.sh stop rest 


停止 过 程 如 图 12-11 所 示 。 


12-11 停止 HBase Rest 


(2) Thrift 


用 户 可 以 通过 下 面 命令 启动 Thrift 客 户 端 ， 并 与 HBase 进 行 通信 : 


hbase-daemon.sh start thrift 


运行 成 功 后 将 显示 如 图 12-12 所 示 的 画面 : 


hadoop@vduntu:=$ hhase-daewon,sh start thr 
starting thrift, Legging to /heae/hadeap/ nd fhbwse-8.92.1/ Logs/hbase~hadeop: thrift-ubentu, owt 


Sodooposbuntu -$ jps 
= 95 Jp 

dde Ws Ste 
365 2 Thriftserver 
adnopeabunite -$ 
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FAP ay baat T MeN LE Thrifthe SF : 


hbase-daemon.sh stop thrift 


停止 过 程 如 图 12-13 所 示 : 


hadoop@ubuntu:~$ Phase-Gaeron ,sh stop thrift 
stopping thrift, 


25 Ips 
3378 Master 
hadoopélubuntu:-$ 
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12.8 Java API 


过 前 面 的 内 容 读者 已 经 了 解 到 ，HBase 作 为 云 环境 中 的 数据 库 ， 
与 传统 数据 库 相 比 拥有 不 同 的 特点 。 当 前 HBase 的 Java API 已 经 比较 完 
善 了 ， 从 其 涉及 的 内 容 来 讲 ， 大 体 包括 : HBase 目 身 的 配置 管理 部 分 
Avro 部 分 、HBase 客 户 端 部 分 、MapReduce 部 分 、Rest 部 分 > Thriftřß 
ZooKeeper 等 。 其 中 HBase 目 身 的 配置 管理 部 分 又 包括 : HBase 配 
置 、 日 志 、IO、Master、Regionserver、replication， 以 及 安全 性 。 


分 ， 


限于 篇 幅 我 们 重点 介绍 与 HBase 数 据 存 储 管理 相关 的 内 容 ， 其 涉及 
的 主要 类 包括 : HBaseAdmin ` HBaseConfiguration ` HTable ` 
HTableDescriptor ` HColumnDescriptor ` Put ` Geti Scanner ° X F Java 
API 的 详细 内 容 ， 大 家 可 以 查看 HBase 官 方 网 站 的 相关 资料 : 
http: //hbase.apache.org/apidocs/index.html ° 
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# 12-5 Java API 5 HBase 数据 模型 之 间 的 关系 
Java 类 HBase 数据 模型 
HBaseAdmin 


- 数据 库 (database) 
HBaseConfiguration 


H Table 

表 (table) 
HTableDescriptor 
HColumnDescriptor i] i (Column Family) 
Put 
Get 行列 操作 
Scanncr 


下 面 我 们 将 详细 讲述 这 些 类 的 功能 ， 以 及 它们 之 间 的 相互 关系 。 
1.HBaseConfiguration 

关系 : org.apache.hadoop.hbase.HBaseConfiguration 

作用 : 通过 此 类 可 以 对 HBase 进 行 配置 。 


包含 的 主要 方法 如 表 12-6 所 示 。 


表 12-6 HBaseConfiguration 类 包含 的 主要 方法 


fal 4 ti H 数 Hii JË 
org.apache.hadoop.conf.Configuration | create() 使 用 默认 的 HBase 配 置 文件 来 创建 
Configuration 


void merge(org.apache. hadoop.conf.| A4 Configuration 
Configuration destConf, org.apachc. 
hadoop.conf.Configuration sreConf) 


用 法 示例 : 


Configuration config=HBaseConfiguration.create () ; 


此 方法 使 用 默认 的 HBase 资 源 来 创建 Configuration。 程 序 默认 会 从 
classpath 中 查找 hbase-site.xml 的 位 置 从 而 初始 化 Configuration ° 


2.HBaseAdmin 
关系 : org.apache.hadoop.hbase.client.HBaseAdmin 


作用 : 提供 了 一 个 接口 来 管理 HBase 数 据 库 的 表 信息 。 它 提供 的 方 
法 包括 创建 表 、 删 除 表 、 列 出 表 项 、 使 表 有 效 或 无 效 ， 以 及 添加 或 删 
除 表 列 族 成 员 等 。 


包含 的 主要 方法 如 表 12-7 所 示 。 


表 12-7 HbaseAdmin 类 包含 的 主要 方法 
bate a 
addColumn < String tableName, HColumnDescriptor fa) —-4> ETE EA SEE ma 
column ) 


checkHBaseAvailable ( HBaseConfiguration conf} PARS, tA HBase 是 否 处 于 运行 
状态 

void createTable (HTableDescriptor desc) 创建 一 个 新 表 ， 同 步 操 作 

deleteTable (byte{] tableName ) BE Cte EH 

enableTable (byte[] tableName ) 使 表 处 于 有 效 状 态 

disableTable (String tableName) 使 表 处 干 无 效 状 态 

HtableDescriptor{] 列 出 所 有 用 户 空间 表 了 项 

modifyTable (bytc[] tableName, HTableDescriptor 终 改 表 的 模式 ， 是 异步 的 操作 ， 可 能 
htd ) 需要 花费 一 定时 间 


boolean tablcExists (String tableName ) 检查 表 是 否 存在， 存在 则 返回 true 


void 


用 法 示例 : 


HbaseAdmin admin=new HbaseAdmin (config) ; 
admin.disableTable ("tablename") ; 


上 述 例 子 通 过 一 个 HBaseAdmin 实 例 admin 调 用 disableTable 方 法 来 
使 表 处 于 无 效 状态 。 


3.HTableDescriptor 


KA: org.apache.hadoop.hbase.HTableDescriptor 


作用 : HtableDescriptor 类 包含 了 表 的 名 字 及 其 对 应 表 的 列 族 。 
包含 的 主要 方法 如 表 12-8 所 示 。 


表 12-8 HtableDescriptor 类 包含 的 主要 方法 


辐 传 什 Hf # Hi ih 
void addFamily ( HcolumnDescriptor ) ie 4 FE 
HeolumnDescriptor removeFamily (byte[] column} 移 除 一 个 列 族 
oe FE 


byte[] getValuc (byte[] key) 获取 属性 的 值 


void setValuc (String key, String valuc) EENE PRE fii 


用 法 示例 : 


HtableDescriptor htd=new HtableDescriptor (tablename) ; 
htd.addFamily (new HcolumnDescriptor ("Family") ) ; 


在 上 述 例 子 中 ， 通 过 一 个 HColumnDescriptor 实 例 ， 为 
HTableDescriptor 深 加 了 一 个 列 族 : Family ° 


4.HColumnDescriptor 


A: org.apache.hadoop.hbase.HColumnDescriptor 


作用 : HColumnDescriptor 维 护 着 关于 列 族 的 信息 ， 例 如 版 本 号 、 
压缩 设置 等 。 它 通 彰 在 创建 表 或 为 表 添 加 列 族 的 时 候 使 用 。 列 族 被 创 
建 后 不 能 直接 修改 ， 只 能 通过 删除 然后 重建 的 方式 来 “修改 *。 并 上 且 ， 
当 列 族 被 删除 的 时 候 ， 对 应 列 族 中 所 保存 的 数据 也 将 被 同时 删除 。 


包含 的 主要 方法 如 表 12-9 所 示 。 


表 12-9 HcolumnDescriptor 类 包含 的 主要 方法 


DIEI 


byte[] ok ey RAY F 


byte[] getValue (bytef] key) Te SS TEA IÉ 
void setValue (String key, String valuc) Ee ME A AN RTE 
5 = 
用 法 示例 : 


HtableDescriptor htd=new HtableDescriptor (tablename) ; 
HcolumnDescriptor col=new HcolumnDescriptor ("content") ; 
htd.addFamily (col) ; 


此 示例 添加 了 一 个 名 为 content 的 列 族 。 
5.HTable 
KA: org.apache.hadoop.hbase.client.HTable 


作用 : 此 表 可 以 用 来 与 HBase 表 进行 通信 。 这 个 方法 对 于 更 新 操作 
来 说 是 非 线 程 安全 的 ， 也 就 是 说 ， 如 果 有 过 多 的 线程 尝试 与 单个 


HTable 实 例 进 行 通信 ， 那 么 写 缓冲 器 可 能 会 月 溃 。 这 时 ， 建 议 使 用 


HTablePool 类 进行 操作 。 


该 类 所 包含 的 主要 方法 如 表 12-10 所 示 。 


# 12-10 ”HTable 类 包含 的 主要 方法 


LE fi 4 t 48) ids 
void checkAndPut (byte[] row, byte[} family, 自动 检查 rowifamily/qualitier 是 否 与 给 定 的 
byte[] qualifier, byte[] value, Put put) 值 匹 配 
void close () EE peik PR A SE a FE AG A RP AY 


更 新 


Boolean exists (GetL! bet ) 检查 Get 实例 所 指定 的 值 是 否 存 在 于 HTable 
的 列 中 


Res eT ATT 


bytef][] getEndKeys () 获取 当 彰 已 打开 的 表 每 个 区 域 的 结束 键 值 
ResultScanner getScanner (bytef] family) See 35 HO PEAY Hs SE FP EAS scanner 实例 
HTableDescriptor | getTableDescriptor (>) se He RAAY HtableDescriptor 实例 
oa KERF 


void put (PutL2 put) iAP ös imit 


用 法 示例 : 


Htable table=new Htable (conf, Bytes.toBytes (tablename) ) ; 
ResultScanner scanner=table.getScanner (Bytes.toBytes (“cf”) ) ; 


Tale ER AC RAE A PG RA “ch I e 
6.Put 


关系 : org.apache.hadoop.hbase.client.Put 


作用 : 用 来 对 单个 行 执行 添加 操作 。 


包含 的 主要 方法 如 表 12-11 所 示 。 


表 12-11 Put 类 包含 的 主要 方法 


pl fifi fii sh 
Put add 《byte[] family. byte[] qualifier, byte[) HH ERARE e RE mi Put 实例 中 
value } 
Put add 《byte[] family, byte[] qualifier, long ts, A HR ae RI FN) AA Ee ee fe RC ig eS) 活 
byte[] value ) 加 到 Put 实例 中 
List<KeyValue> | get (byte[] family, byte[] qualifier) 返回 与 指定 和 的 *“ 列 族 : FI" 匹配 的 项 
boolean has í byte[} family, byte{] qualifier) 检查 是 否 包 含 指定 的 “ 列 旅 : 列 ” 


用 法 示例 : 


HTable table=new HTable (conf, Bytes.toBytes (tablename) ) ; 
Put p=new Put (row) ; // 为 指定 行 (row) 创建 一 个 Put 操 作 

p.add (family, qualifier, value) ; 

table.put (p) ; 


wilt BC [a] Fe “tablename” 4s Jl “family, qualifier, value” 指 定 的 
值 。 


7.Get 
KA: org.apache.hadoop.hbase.client.Get 
作用 : 用 来 获取 单个 行 的 相关 信息 。 


包含 的 主要 方法 如 表 12-12 所 示 。 


表 12-12 Get 类 包含 的 主要 方法 


Pga Hi 述 
Get addColumn (byte[] family, bytef} qualifier) SHR SHE Fi HSA Fl FE TH FES AY FI] 
Get addFamily ( byte[{] family} eset FEA A RT P 
Get setTimeRange (long minStamp. long maxStamp } te AY PAAR ASS 


Get setFilter {Filter filter) Sthiy Get HEMI RS Shit ea 


用 法 示例 : 


Htable table=new Htable (conf, Bytes.toBytes (tablename) ) ; 
Get g=new Get (Bytes.toBytes (row) ) ; 
Result result=table.get (g) ; 


上 述 函 数 将 获取 *tablename” 表 中 “row” 行 对 应 的 记录 。 
8.Result 
关系 : org.apache.hadoop.hbase.client.Result 


作用 : 存储 Get 或 Scan 操作 后 获取 的 表 的 单行 值 。 使 用 此 类 提供 的 
方法 能 够 直接 方便 地 获取 值 或 获取 各 种 Map 结 构 (< key, value > 
对 ) 。 

包含 的 主要 方法 如 表 12-13 所 示 。 


表 12-13 Result 类 包含 的 主要 方法 


同 传 什 描 还 
Belen containsColumn ( byte{] family, 检查 指定 的 列 是 否 存 在 
opic = 
: byte[] qualifier } 
getFamilyMap { byte[]} family } 4 Bt HA: Map<qualificr.valuc>, 3k 


avigableMapsbytel tte He tt Foz Fi) DEG Le IE TS (ALA BR 
getValue (byte[] family, byte[] $e He Hp ee FA r léi 


cs ee 
yte[]} qualifier ) 


用 法 示例 : 


HTable table=new HTable (conf, Bytes.toBytes (tablename) ) ; 
Get g=new Get (Bytes.toBytes (row) ) ; 

Result rowResult=table.get (g) ; 

Bytes[ ]value=rowResult.getValue ( (family+": "+column) ) ; 


9.ResultScanner 

KA: Interface 

作用 : 客户 端 获 取 值 的 接口 。 
包含 的 主要 方法 如 表 12-14 所 示 。 


表 12-14 ResultScanner 类 包含 的 主要 方法 


EÑ 数 di 述 


让 传 值 
Void 


Result 获取 下 一 行 的 值 


用 法 示例 : 


= ResultScanner scanner=table.getScanner (Bytes.toBytes 
(family) ) ; 
for (Result rowResult: scanner) { 


Bytes[]str=rowResult.getValue (family, column) ; 
} 


如 果 大 家 想 要 对 HBase 的 原理 、 运 行 机 制 以 及 编程 有 更 深入 的 了 
解 ， 建 议 阅 读 HBase 的 源码 。 通 过 对 HBase 源 码 的 深入 探究 ， 相 信 大 家 
一 定 能 够 对 HBase 有 更 深层 次 的 理解 。 


[1] org.apache.hadoop.hbase.client.Get2 ° 
[2] org.apache.hadoop.hbase.client.Put 类 。 


12.9 HBase 编 程 


本 于 我 们 将 介绍 如 何 使 用 IDE 对 HBase 进 行 编程 ， 并 介绍 如 何 使 用 
HBase 编 写 MapReduce 程 序 。 首 完 ， 我 们 介绍 如 何 配 置 Edlipse， 并 用 其 
开发 HBase 应 用 程序 。 


12.9.1 使 用 Eclipse 开发 HBase 应 用 程序 


当 第 三 方 访问 HBase 的 时 候 ， 首 选 需要 访问 ZooKeeper， 因 为 
HBase 的 重要 信息 保存 在 ZooKeeper 当 中 。 我 们 知道 ，ZooKeeper 集 群 
的 信息 由 $HBASE_HOME/conf/hbase-site.xml 文 件 指定 。 因 此 需要 通过 
classpath 来 指定 HBase 配 置 文件 的 位 置 ， 即 $HBASE_HOME/conf/ 的 位 
oo 


使 用 HBase 客 户 端 进 行 编程 的 时 候 ，hbase、hadoop、log4j、 
commons-logging、commons-lang、ZooKeeper 等 JAR 包 对 于 程序 来 说 是 
必需 的 。 除 此 之 外 ，commons-configuration 、sl 人 fj 等 JAR 包 也 经 常 被 用 
到 。 下 面 列 出 对 于 HBase-0.92.1 版 本 来 说 所 需 的 JAR 包 : 


hbase-0.92.1.jar 
hbase-0.92.1-test.jar 
hadoop-1.0.1.jar 
zookeeper-3.4.3.jar 
log4j-1.2.16.jar 
commons-logging-1.1.1.jar 


commons-lang-2.5.jar 


此 外 程序 可 能 包含 一 些 间 搂 引 用 ， 可 以 通过 错误 提示 进行 相应 修 
改 。 


下 面 我 们 通过 一 个 实例 来 演示 具体 的 配置 。 
(1) 添加 JAR 包 


添加 JAR 包 有 两 种 方法 ， 比 较 简单 的 是 ， 在 HBase 工 程 上 ， 右 击 
Propertie 在 弹出 的 快捷 菜单 中 选择 Java Build Path 对 话 框 ， 在 该 对 话 框 
中 单 击 Libraries 选 项 卡 ， 在 该 选项 卡 下 单 击 Add External JARs 按 钮 ， 定 
位 到 $HBASE/ib 目 录 下 ， 并 选取 上 述 JAR 包 ， 如 图 12-14 所 示 。 


上 述 操 作 可 以 通过 在 工程 根 目录 ( 即 与 src 文 件 夹 平 行 目录 ) 下 创 
建 lib 文 件 夹 ， 并 添加 相关 JAR 包 来 代 蔡 。 


(2) 添加 hbase-site.xml 配 置 文件 


在 工程 根 目 录 下 创建 Conf 文 件 夹 ， 将 $HBASE_HOME/conf/ 目 录 
中 的 hbase-site.xml 文 件 复制 到 该 文件 夹 中 。 通 过 右键 选择 Propertie- > 
Java Build Path- > Libraries-> Add Class Folder， 然 后 勾 选 Conf 文 件 夹 
进行 添加 ， 如 图 12-15 所 示 。 


接 下 来 便 可 以 与 普通 Java 程 序 一般 调 用 HBase API 编 写 程序 了 。 还 
可 以 通过 运行 HBase Shel 与 程序 操作 进行 交互 。 


a Java Build Path 


Resource 


Builders 
dave Build Path JARS and class folders on the build path: 


BSource EPrajects MLibraries | Order and Export 


Java Code Style * & commons-configuration-t.6 jar - /homeshadoop/had Add JARs... 
Java Compiler » & commons-lang-2. 5jar -/home/hadoop/hadoop-1,0.4 
src Jaa Editor > & commons-logging-t, 1.1.jar- /home/hadoop/hadoop | Ade external sa | 
* Borg Javadoc Location > & hadoop<ore-1.0.1 jar -/home/hadoap/hadoop-1.0.1 Add Variabie... 
PRRIRES Project Facets > & hbase-0.92, P-tests jar -/home/hadoop/hadoop:t..1 - 


Ymahefer Project Referemes > = Mbase-0.92,1 jar -/home/hadoop/hadoop-1.0, t/hdas 
> ha Run/Debug Settings > @ HBase/Cont (class folder) Add Chass Fokdes,.. 


Add Library... 


Æ 4 iihadoop | hadoop-t.0.1 hbase-0.92-4 i 


Paces Name Modified 
Ə recently Used 局 Puby 03/09/2042 
@ hadoop G activation-1,1 jar 6LSKB 03/09/2012 
E Desktop asmat Jar 420KB 03/09/2012 
D File System E awol.5.3jar 257-18 | 03/09/2012 vernon wS 
L Floppy Drive Gel awotpe-1.S3jar 164.1KB 93/09/2012 Heap 
T Documents E commors-beorntils-1,7,0jar 1842KB 03/09/2012 sa. class.pat 


eile D commors-bearntils<ore-1.3.0.jar 201.2KB 03/09/2012 bea. library. 
A Music sa. io. tmpdii 
ava. Compl ler: 
+. NatewLlnux 


sjati m] i arch-i306 ~ 


D 
mVjava (May 
+ re 


it Pictures > Mcommorscli-t2jar 40.2KB 03/09/2012 |, 


12-14 ”添加 相关 JAR 包 


Add JARS. 


Add External JARS 


em apo 
Joop/hadoop-1.0.1 Add Variable... 
loop/hadoop-1.0.t 


d i> bin A ibrary.. 
hadoop-1.0,t/hbas os Library 


101A 
[hdoop- Add External Class Folder... 
ropshadoop-t.0.1 
op) adoi op-1 of 


Create New Folder... 


Concet | (ENS on on iii OK 
12-15 添加 HBase 配 置 文件 


如 采 不 设置 hbase-site.xml 配 置 文件 的 位 置 ， 程 序 将 目 动 读 取 
HBase-0.92.1.jar 文 件 中 默认 的 配置 文件 ， 这 样 可 能 与 目 己 的 预期 有 一 
定 的 差距 。 大 家 还 可 以 通过 程序 来 进行 HBase 的 配置 ， 例 如 者 要 设置 
ZooKeeper 集 群 的 位 置 ， 可 在 HBase 的 Configuration 中 做 如 下 配置 : 


Configuration config=HBaseConfiguration.create () ; 
config.set ("hbase.zookeeper.quorum", "master, slave1, slave2") ; 


上 述 代码 设置 HBase 所 运行 的 ZooKeeper 集 群 的 位 置 为 master 、 


slave1 和 slave2 ° 


12.9.2 HBase 编 程 


在 12.8 节 中 ， 我 们 已 经 对 常用 的 HBase API 进 行 了 简单 的 介绍 。 下 
面 我 们 给 出 一 个 简单 的 例子 ， 希望 大 家 这 个 例子 能 对 HBase 
的 使 用 方法 及 特点 有 一 个 更 深入 的 认识 。 示 例 代码 如 代码 清单 12-2 所 


不 o 
代码 清单 12-2 HBase Java API 人 简单 用 例 


package cn.edn.ruc.clodcomputing.book.chapter12; 
import java.io.IOException; 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.HColumnDescriptor; 
import org.apache.hadoop.hbase.HTableDescriptor; 
import org.apache.hadoop.hbase.client.Get; 

10 import org.apache.hadoop.hbase.client .HBaseAdmin; 
11 import org.apache.hadoop.hbase.client.HTable; 

12 import org.apache.hadoop.hbase.client.Put; 

13 import org.apache.hadoop.hbase.client.Result; 

14 import org.apache.hadoop.hbase.client.ResultScanner; 
15 import org.apache.hadoop.hbase.client.Scan; 

16 import org.apache.hadoop.hbase.util.Bytes; 


ONOWIRWNE 


© 


18 

19 public class HBaseTestCase{ 

20// 声 明 静 态 配置 HBaseConfiguration 

21 static Configuration cfg=HBaseConfiguration.create () ; 

22 

23// 创 建 一 张 表 ， 通 过 HBaseAdmin HTableDescriptor iz 

24 public void creat (String tablename, String 
columnFamily) throws 

Exception{ 

25 HBaseAdmin admin=new HBaseAdmin (cfg) ; 


26 if (admin.tableExists (tablename) ) { 

27 System.out.printin ("table Exists! ") ; 

28 System.exit (0) ; 

29} 

30 else{ 

31 HTableDescriptor tableDesc=new HTableDescriptor (tablename) ; 

32 tableDesc.addFamily (new HColumnDescriptor (columnFamily) ) ; 

33 admin.createTable (tableDesc) ; 

34 System.out.printin ("create table success! ") ; 

35} 

36} 

37 

38// 添 加 一 条 数据 ， 通 过 HTable Put 为 已 经 存在 的 表 来 添加 数据 

39 public static void put (String tablename, String row, String 
columnFamily, 

String column, String data) throws Exception{ 

40 HTable table=new HTable (cfg, tablename) ; 

41 Put pi=new Put (Bytes.toBytes (row) ) ; 

42 pi.add (Bytes.toBytes (columnFamily) , Bytes.toBytes 

(column) , 

Bytes.toBytes (data) ) ; 

43 table.put (p1) ; 

44 System.out.printin 


("put'"+rowt"', '"+columnFamily+": "+column+"', 

1 "+datat" 1 a ; 

45} 

46 

47 public static void get (String tablename, String row) throws 
I0Exception{ 


48 HTable table=new HTable (cfg, tablename) ; 

49 Get g=new Get (Bytes.toBytes (row) ) ; 

50 Result result=table.get (g) ; 

51 System.out.printin ("Get: "+result) ; 

52} 

53// 显 示 所 有 数据 ， 通 过 HTab1le Scan 来 获取 已 有 表 的 信息 

54 public static void scan (String tablename) throws Exception{ 

55 HTable table=new HTable (cfg, tablename) ; 

56 Scan s=new Scan () ; 

57 ResultScanner rs=table.getScanner (s) ; 

58 for (Result r: rs) { 

59 System.out.printin ("Scan: "+r) ; 

60} 

61} 

62 

63 public static boolean delete (String tablename) throws 
IOException{ 

64 

65 HBaseAdmin admin=new HBaseAdmin (cfg) ; 


66 if (admin.tableExists (tablename) ) { 

67 try 

68{ 

69 admin.disableTable (tablename) ; 

70 admin.deleteTable (tablename) ; 

71}catch (Exception ex) { 

72 ex.printStackTrace () ; 

73 return false; 

74} 

75 

76} 

77 return true; 

78} 

79 

80 public static void main (String[]agrs) { 

81 String tablename="hbase_tb"; 

82 String columnFamily="cf"; 

83 

84 try{ 

85 HBaseTestCase.creat (tablename, columnFamily) ; 

86 HBaseTestCase.put (tablename, "row1", 
columnFamily, "cli", "data") ; 

87 HBaseTestCase.get (tablename, "row1") ; 

88 HBaseTestCase.scan (tablename) ; 

89 if (true==HBaseTestCase.delete (tablename) ) 

90 System.out.printin ("Delete table: "+tablename+"success! ") ; 

91 

92} 

93 catch (Exception e) { 

94 e.printStackTrace () ; 

95} 

96} 

97} 


在 该 类 中 ， 实 现 了 类 似 HBase Shell 的 表 创 建 (creat (String 
tablename, String columnFamily) ) 操作 ， 以 及 Put、Get、Scan 和 delete 
操作 ° 


在 代码 清单 12-2 中 ， 首 先 ， 通 过 第 21 行 加 载 HBase 的 默认 配置 
cfg; 然后 ， 通 过 HbaseAdmin 接 口 来 管理 现 有 数据 库 ， 见 第 25 行 ， 第 


26~-36 行 通过 HTableDescriptor (指定 表 相 关 信 息 ) 和 
HColumnDescriptor (指定 表 内 列 族 相 关 信 息 ) 来 创建 一 个 HBase 数 据 
库 ， 并 设置 其 拥有 的 列 族 成 员 ; put 函 数 通过 HTable 和 Put 类 为 该 表 添 
加 值 ， 见 第 38 一 44 行 ; get 函数 通过 HTable 和 Get 读 取 刚 刚 添 加 的 值 ， 
见 第 47~52 行 ;Scan 函数 通过 HTable 和 Scan 类 读 取 表 中 的 所 有 记录 ， 
见 第 54~-61 行 ，delete 函 数 ， 通 过 HBaseAdmin 首 先 将 表 置 为 无 效 (第 
69 行 ) ， 然 后 将 其 删除 〈 第 70 行 ) ° 


该 程序 在 Eclipse 中 的 运行 结 采 如 下 所 示 : 


create table success! 

put'row1', 'cf: cli', 'data' 

Get: keyvalues={row1/cf: cl1/1336632861769/Put/vlen=4} 

Scan: keyvalues={row1/cf: cl11/1336632861769/Put/vlen=4} 

12/05/09 23: 54: 21 INFO client.HBaseAdmin: Started disable of 
hbase_tb 

12/05/09 23: 54: 23 INFO client.HBaseAdmin: Disabled hbase tb 

12/05/09 23: 54: 24 INFO client.HBaseAdmin: Deleted hbase_tb 

Delete table: hbase_tb success! 


12.9.3  HBase=jMapReduce 


从 图 12-1 中 可 以 看 出 ， 在 伪 分 布 模式 和 完全 分 布 模式 下 HBase 是 以 
构 在 HDFS 之 上 的 。 因 此 完全 可 以 将 MapReduce 编 程 框架 和 HBase 结 合 
起 来 使 用 。 也 就 是 说 ， 将 HBase 作 为 底层 “存储 结构 >，MapReduce 调 用 
HBase 进 行 特殊 的 处 理 ， 这 样 能 够 充分 结合 HBase 分 布 式 大 型 数据 库 和 
MapReduce 并 行 计算 的 优点 。 


下 面 我 们 给 出 了 一 个 WordCount 将 MapReduce 与 HBase 结 合 起 来 使 
用 的 例子 ， 如 代码 清单 12-3 所 示 。 在 这 个 例子 中 ， 输 入 文件 为 
user/hadoop/input/file01 ( 它 包含 内 容 hello world bye world) 和 文件 


user/hadoop/input/file02 ( 它 包含 内 容 hello hadoop bye hadoop) ° 


程序 首先 从 文件 中 收集 数据 ， 在 shuffle 完 成 之 后 进行 统计 并 计 
算 ， 最 后 将 计算 结 采 存储 到 HBase 中 。 


代码 清单 12-3 ”HBase 与 WordCount 的 结合 使 用 


package cn.edn.ruc.cloudcomputing.book.chapter12; 
import java.io. IOException; 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.HColumnDescriptor; 
import org.apache.hadoop.hbase.HTableDescriptor; 
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10 import org.apache.hadoop.hbase.client.HBaseAdmin; 

11 import org.apache.hadoop.hbase.client.Put; 

12 import org.apache.hadoop.hbase.mapreduce.TableOutputFormat; 

13 import org.apache.hadoop.hbase.mapreduce.TableReducer; 

14 import org.apache.hadoop.hbase.util.Bytes; 

15 import org.apache.hadoop.io.IntWritable; 

16 import org.apache.hadoop.io.Longwritable; 

17 import org.apache.hadoop.io.Nullwritable; 

18 import org.apache.hadoop.io.Text; 

19 import org.apache.hadoop.mapreduce. Job; 

20 import org.apache.hadoop.mapreduce.Mapper; 

21 import 
org.apache.hadoop.mapreduce.1lib.input.FileInputFormat; 

22 import 
org.apache.hadoop.mapreduce.1lib.input.TextInputFormat; 

23 

24 public class WordCountHBase 

25{ 

26 public static class Map extends Mapper<LongWritable, Text, 
Text, IntWritable>{ 

27 private IntWritable i=new IntWritable (1) ; 

28 public void map (Longwritable key, Text value, Context 
context) throws 

IOException, InterruptedException{ 

29 String s[]=value.toString () .trim O .split ("") ; // 将 输入 的 每 

行 输入 以 空格 分 

30 for (String m: s) { 

31 context.write (new Text (m) , i) ; 

32} 

33} 

34} 

35 

36 public static class Reduce extends TableReducer <Text, 
IntWritable, 

Nullwritable> { 

37 public void reduce (Text key, Iterable<IntwWritable>values, 
Context 

context) throws IOException, InterruptedException{ 

38 int sum=0; 

39 for (IntWritable i: values) { 

40 sum+=i.get () ; 

41} 

42 Put put=new Put (Bytes.toBytes (key.toString () ) ) ; //Put 实 例 

化 ， 每 一 个 词 存 一 行 

43 put.add (Bytes.toBytes ("content") , Bytes.toBytes ("count") 
Bytes. 

toBytes (String.valueOf (sum) ) ) ; // 列 族 为 content， 列 修饰 符 为 
count， 列 


值 为 数目 
44 context .write (Nullwritable.get () , put) ; 
45} 
46} 
47 
48 public static void createHBaseTable (String tablename) throws 
IOException{ 
49 HTableDescriptor htd=new HTableDescriptor (tablename) ; 
50 HColumnDescriptor col=new HColumnDescriptor ("content: ") ; 
51 htd.addFamily (col) ; 
52 HBaseConfiguration config=new HBaseConfiguration () ; 
53 HBaseAdmin admin=new HBaseAdmin (config) ; 
54 if (admin.tableExists (tablename) ) { 
55 System.out.printin ("table exists, trying recreate 
table! it) $ 
56 admin.disableTable (tablename) ; 
57 admin.deleteTable (tablename) ; 
58} 
59 System.out.println ("create new table: "+tablename) ; 
60 admin.createTable (htd) ; 
61} 
62 
63 public static void main (String args[]) throws Exception{ 
64 String tablename="wordcount"; 
65 Configuration conf=new Configuration () ; 
66 conf.set (TableOutputFormat .OUTPUT_TABLE, tablename) ; 
67 createHBaseTable (tablename) ; 
68 String input=args[0]; // 设 置 输入 值 
69 Job job=new Job (conf, "WordCount table with"+input) ; 
70 job.setJarByClass (WordCountHBase.class) ; 
71 job.setNumReduceTasks (3) ; 
72 job.setMapperClass (Map.class) ; 
73 job.setReducerClass (Reduce.class) ; 
74 job.setMapOutputKeyClass (Text.class) ; 
75 job.setMapOutputValueClass (IntWritable.class) ; 
76 job.setInputFormatClass (TextInputFormat.class) ; 
77 job.setOutputFormatClass (TableOutputFormat.class) ; 
78 FileInputFormat.addInputPath (job, new Path (input) ) ; 
79 System.exit (job.waitForCompletion (true) ?0: 1) ; 
80} 
81} 


在 上 述 程 序 中 ， 第 26~34 行 代码 负责 设置 Map 作 业 ; 36~46íT 
代码 负责 设置 Reduce 作 业 ; 48~6147 (085 NcreateHBaseTable KZN, 


负责 在 HBase 中 创建 存储 WordCount 输 出 结果 的 表 。 在 Reduce 作 业 中 ， 
第 42~44 行 代码 负责 将 结果 存储 到 HBase 表 中 。 


程序 运行 成 功 后 ， 现 在 通过 HBase Shell 检 查 输 出 结果 ， 如 图 12-16 
FITZ ° 


wordcount' 
COLUMN CELL 


COluMNCoMTENt- count, tisestamp=1297571391451, value 
colomn-content:count, tisestamp-L297S71391452, v 
column=comtent:count, timestamp=12975712391452. valu 


nt:count, tisestamp=1297571391452, value=? 


儿 12-16 HBase WordCount 的 运行 结果 


从 输出 结果 中 可 以 看 出 ，bye、hadoop、hello、world 四 个 单词 均 
出 现 了 两 次 。 


关于 HBase 与 MapReduce 实 际 应 用 的 更 多 详细 信息 请 参阅 
http: //wiki.apache.org/hadoop/Hbase/MapReduce ° 


12.10 ”模式 设计 


通过 HBase 与 RDBMS 的 比较 ， 可 以 了 解 到 二 者 无 论 是 在 物理 视 
` 逻辑 视图 还 是 具体 操作 上 都 存在 很 大 的 区 别 。 例 如 ，HBase 中 没 
有 Join 的 概念 。 但 是 ， 大 表 的 结构 可 以 使 其 不 需要 Join 操 作 惑 能 解决 
Join 操 作 所 解决 的 问题 。 比 如 ， 在 一 条 行 记录 加 上 一 个 特定 的 行 关键 
字 ， 便 可 以 实现 把 所 有 关于 Join 的 数据 合并 在 一 起 。 另 外 ，Row Key 的 
设计 也 非常 天 键 。 以 天 气 数据 存储 为 例 。 假 如 将 监测 站 的 值 作 为 Row 
Key 的 前 绥 ， 那 么 天 气 数据 将 以 监测 站 聚 篮 存 放 。 同 时 将 倒序 的 时 间 
作为 监测 站 的 后 级 ， 那 么 同一 监测 站 的 数据 将 从 新 到 旧 进 行 排列 。 这 
样 的 特定 存储 功能 可 以 满足 用 户 特 殊 的 需要 。 


一 般 来 说 HBase 的 使 用 是 为 了 解决 或 优化 某 一 问题 ， 恰 当 的 模式 
设计 可 以 使 其 具有 HBase 本 身 所 不 具有 的 功能 ， 并 且 使 其 执行 效率 得 
到 成 百 上 千 倍 的 提高 。 


12.10.1 模式 设计 应 遵循 的 原则 


在 进行 HBase 数 据 库 模 式 设计 的 时 候 ， 不 当 的 设置 可 能 对 系统 的 
性 能 产生 不 民 的 影响 。 当 数据 量 比较 小 的 时 候 ， 表 现 可 能 并 不 明显 ， 


但 随 着 数据 量 的 增加 这 些微 小 的 差别 将 有 可 能 对 系统 的 性 能 产生 很 大 
的 影响 。 有 下 面 几 点 需要 特别 注意 。 


1. 列 族 的 数量 及 列 族 的 势 


我 们 建议 将 HBase 列 族 的 数量 设置 得 越 少 越 好 。 当 前 ， 对 于 两 个 
或 两 个 以 上 的 列 族 HBase 并 不 能 处 理 得 很 好 。 这 是 由 于 HBase 的 
Flushing (冲洗 ， 即 将 内 存 中 的 数据 写 入 磁盘 ) 和 压缩 是 基于 Region 
的 。 当 一 个 列 族 所 存储 的 数据 达到 Flushing 的 闵 值 时 ， 该 表 中 的 所 有 列 
族 将 同时 进行 Flshing 操 作 。 这 将 市 来 不 必要 的 MO 开销 ， 列 族 越 多 ， 该 
特性 市 来 的 影响 越 大 。 对 于 压缩 也 是 同 样 的 道理 。 


此 外 ， 还 要 堵 虚 到 同一 个 表 中 不 同 列 族 所 存储 的 记录 数量 的 差 
别 ， 即 列 族 的 势 (Cardinality) 。 当 两 个 列 族 数 量 差别 过 大 时 将 会 使 包 
全 记录 数量 较 少 列 族 的 数据 分 散在 多 个 Region 之 上 ， 而 Region 有 可 能 
存储 在 不 同 的 Regionserver 之 上 。 这 样 ， 当 进行 查询 或 scan 操 作 的 时 
候 ， 系 统 的 效率 会 受到 一 定 的 影响 。 该 影响 的 大 小 要 视 具体 的 情况 而 
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2. 行 键 (Row Key) 的 设计 


首先 ， 应 该 避免 使 用 时 序 或 单调 (递增 /递减 ) 行 键 。 因 为 当 数据 
到 来 的 时 候 ，HBase 首 爷 需 要 根据 记录 的 行 键 来 确定 存储 的 位 置 ， 即 
Region 的 位 置 。 如 时 使 用 时 序 或 单调 行 键 ， 那 么 连续 到 来 的 数据 将 会 


被 分 配 到 同一 个 Region 当 中 ， 而 此 时 系统 中 的 其 他 Region/Regionserver 
将 处 于 空 几 状态 ， 这 是 分 布 式 系统 最 不 希望 看 到 的 情况 。 如 采 必 须 存 
储 这 种 类 型 的 数据 ， 例 如 时 序 值 ， 那 么 该 怎么 办 呢 ? 在 OpenTSB 中 ， 
行 键 的 设计 如 下 所 示 : 


[metric_type][event_timestamp] 


上 壕 方 法 将 时 序 (event_timestamp) 作为 行 键 的 第 二 个 “字段 ”， 
并 为 行 键 添加 一 个 前 绥 。 但 是 ， 具 体 选择 什么 样 的 规则 来 创建 行 键 也 
需要 视 情 况 而 定 ， 没 有 万 能 的 规则 。 


3. 尽 量 最 小 化 行 键 和 列 族 的 大 小 


在 HBase 中 ， 一 个 具体 的 值 由 存储 该 值 的 行 键 、 对 应 的 列 〈 列 
族 : 列 ) 以 及 该 值 的 时 间 惟 决定 。 HBase 中 的 索引 是 为 了 加 速 随机 访 
问 的 速度 。 该 索引 的 创建 是 基于 “ 行 键 + 列 族 : 列 + 时 间 戳 + 值 ? 的 ， 如 
果 行 键 和 列 族 的 大 小 过 大 ， 长 至 超过 值 本 身 的 大 小 ， 那 么 将 会 增加 索 
引 的 大 小 。 并 且 ， 在 HBase 中 数据 记录 往往 非常 之 多 ， 重 复 的 行 键 、 
列 将 不 但 使 得 索引 的 大 小 过 大 ， 也 将 加 重 系统 存储 的 负担 。 


4. 版 本 的 数量 


HBase 在 进行 数据 存储 的 时 候 ， 痢 的 数据 并 不 会 直接 获 兰 旧 的 数 
据 ， 而 是 进行 退 加 操作 ， 不 同 的 数据 通过 时 间 鹤 进行 区 分 。 默 认 情 况 


下 ， 每 行 数 据 存 储 三 个 版 本 ， 该 值 可 以 通过 HColumnDescriptor 进 行 设 
置 ， 建 议 不 要 将 其 设置 得 过 大 。 


下 面 我 们 通过 两 个 例子 ， 让 读者 对 HBase 的 模式 设计 有 一 个 初步 
的 认识 。 


Dit? = 


这 里 我 们 以 学 习 数 据 库 过 程 中 常用 的 一 个 学 生 表 为 例 来 讲解 模式 
设计 。 众 所 周知 ， 在 关系 型 数据 库 (RDBMS) 中 学 生 表 的 表 结 构 如 表 
12-15 ~3£12-17FT AK ° 
3% 12-15 学生 表 (Student) 
FR S_Age 


表 12-16 课程 表 (Course) 


ap ga 局 ef 
DR e v =F 


表 12-17 选课 表 (SC) 


SC Score 


那么 在 HBase 中 ， 数 据 存储 的 模式 将 如 表 12-18 和 表 12-19 所 示 。 


表 12-18 HBase 中 的 Student 表 


Column Family 
info:S_ Name the name rourse:<C No> <S 
info:S Sex the sex 
info:S Age the age 


Column Family 


Row Key 
value 


<S No> ' Score> 


# 12-19 HBase 中 的 Course # 


Column Family 


info:C_Name the name student:<S No> <SC Score> 
info:C_Credit the credit — fteeeee eea 


Column Family 


Row Key 
value 


从 上 面 的 5 个 表 中 可 以 看 出 ， 在 RDBMS 中 可 以 完成 的 操作 ， 在 
HBase 中 不 但 可 以 完成 ， 还 可 以 有 更 好 的 执行 效率 。 在 HBase 中 Row 
Key 是 索引 ， 因 此 在 HBase 中 对 数据 进行 查询 ， 能 够 比 RDBMS 有 更 大 的 
速度 优势 。 


12.10.3 ”事件 表 


首先 我 们 给 出 时 间 表 在 RDBMS 中 的 表 结构 ， 如 表 12-20 所 示 。 


表 12-20 事件 表 (Action) 
A Time 


其 件 ID 用 户 ID 事件 名称 事件 发 生 时 间 


上 述 事 件 表 存 储 了 所 有 用 户 所 发 生 的 事件 信息 ， 包 括 事件 名 称 和 
事件 发 生 的 时 间 。HBase 一 般 针 对 某 一 特殊 的 应 用 存储 数据 ， 因 此 我 
们 需要 首先 确定 用 户 的 需求 。 假 如 用 户 的 需求 描述 如 下 : 查询 某 一 用 
户 最 近 发 生 的 10 个 事件 。 那 么 ，RDBMS 的 SQL 查询 语句 如 下 : 


SELECT A_Id, A_UserId, A_Name, A_Time From Action WHERE 
A_UserId=***ORDER BY A Time DESC LIMIT 10 


在 HBase 中 为 了 加 快 数据 的 得 询 速度 ， 现 在 需要 将 数据 以 用 户 聚 
篮 的 方式 存放 ， 并 且 按 照 事件 发 生 的 时 间 倒 序 排列 。 那 么 在 HBase 中 
将 有 下 面 的 存储 模式 ， 如 表 12-21 所 示 。 


表 12-21 HBase 中 Action 表 


<A Userld><Long.Max Value-System.currentlimeMills(}><A_ id> 


从 上 表 中 可 以 看 出 ， 数 据 已 经 按照 要 求 聚 入 存放， 查询 速度 必然 
要 优 于 RDBMS ° 


12.11 REME 


本 章 向 大 家 介绍 了 HBase， 包 括 HBase 的 特点 、 基 本 操作 、 体 系 结 
构 、 数 据 模型 、 它 与 其 他 相关 产品 的 关系 ， 以 及 如 何 使 用 HBase 纺 
程 、 设 计 表 等 内 容 


[© 


通过 本 章 ， 大 家 可 以 了 解 到 ，HBase 是 一 个 开源 的 、 分 布 式 的 、 
多 版 本 的 、 面 向 列 的 存储 模型 。 它 与 传统 的 天 系 型 数据 库 有 着 本 质 的 
不 同 ， 并 且 在 某 些 场 合 中 ，HBase 拥 有 其 他 数据 库 所 不 具有 的 优势 。 
它 为 大 型 数据 的 存储 和 某 些 特殊 应 用 提供 了 很 好 的 解决 方案 。 


另外 ，HBase 具 有 三 种 运行 模式 。 其 中 ， 伪 分 布 模式 和 完全 分 布 
模式 需要 以 HDFS 作 为 其 文件 存储 系统 。 因 此 HBase 可 以 有 效 地 与 
MapReduce 结 合 起 来 使 用 ， 充 分 发 挥 二 者 的 优势 。 本 章 为 大 家 介绍 了 
如 何 配置 IDE 进 行 HBase 编 程 ， 同 时 给 出 了 几 个 简单 的 编程 实例 ， 除 此 
之 外 ， 还 为 大 家 简单 比较 了 HBase 的 模式 与 传统 RDBMS 模 式 设计 的 异 
同 之 处 。 


希望 通过 对 本 章 的 学 习 ， 能 够 让 大 家 对 HBase 有 一 个 全 面 、 综 合 
的 了 解 。 限 于 篇 幅 ， 未 能 深入 地 讲解 HBase 相 关 的 知识 ， 更 多 的 内 
容 ， 大 家 可 以 到 HBase 官 方 网 站 查阅 ， 网 址 为 : 


http: /Whbase.apache.org/。 另 外 ， 我 们 还 希望 读者 能 够 阅读 HBase 的 源 
码 ， 这 样 会 对 HBase 的 深层 机 制 有 更 深入 的 理解 。 
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本 章 小 结 


13.1 Mahouttai7} 


Apache Mahout 起 源 于 2008 年 ， 当 时 它 是 Apache Lucene 的 子 项 
目 。 使 用 Apache Hadoop 库 ， 可 以 将 其 功能 有 效 地 扩展 到 Apache 
Hadoop 云 平台 中 。Apache Lucene 是 一 个 著名 的 开源 搜索 引擎 ， 它 实现 
了 先进 的 信息 检索 、 文 本 挖掘 功能 。 在 计算 机 科学 领域 中 ， 这 些 概念 
与 机 器 学 习 技 术 相 近 。 正 是 由 于 这 种 原因 ， 一 些 Apache Lucene 的 开发 
者 最 终 转 入 开发 机 器 学 习 算法 中 来 。 进 而 ， 这 些 机 器 学 习 算 法 形成 了 
最 初 的 Apache Mahout。 不 久 以 后 ，Apache Mahout 吸 收 了 一 个 名 为 
Taste 的 开源 协同 过 滤 算 法 的 项 目 ， 经 过 两 年 的 发 展 ，2010 年 4 月 
Apache Mahout 最 终 成 为 了 Apache 的 顶级 项 目 。 


Apache Mahout 的 主要 目标 是 建立 可 伸缩 的 机 器 学 习 算 法 。 这 种 可 
伸缩 性 是 针对 大 规模 的 数据 集 而 言 的 。 Apache Mahout 的 算法 运行 在 
Apache Hadoop 平 台 下 ， 它 通过 MapReduce 模 式 实现 。 但 是 ，Apache 
Mahout 并 不 严格 要 求 算 法 的 实现 要 基于 Hadoop 平 台 ， 单 个 市 点 或 非 
Hadoop 平 台 也 可 以 。Apache Mahout 核 心 库 的 非 分 布 式 算法 也 具有 良 
好 的 性 能 。 


Apache Mahout 是 Apache Software Foundation (ASF) 旗下 的 一 个 
开源 项 目 ， 提 供 了 一 些 经 典 的 机 器 学 习 算 法 ， 旨 在 帮助 开发 人 员 更 加 
方便 快捷 地 创建 智能 应 用 程序 。 该 项 目 已 经 发 展 到 了 它 的 第 三 个 年 


头 ， 有 了 三 个 公共 发 行 版 本 。Apache Mahout 项 目 包含 聚 类 、 分 类 、 推 
425 ` MAF USHA ° Apache Mahout 虽 已 经 实现 了 很 多 技术 和 算 
法 ， 但 是 仍然 还 有 一 些 算法 正在 开发 和 测试 阶段 。 目 前 Apache Mahout 
项 目 主要 包括 以 下 五 个 部 分 。 


频 迷 模式 挖掘 : 挖掘 数 据 中 频 党 出 现 的 项 集 。 


BER: 将 诸如 文本 、 文 档 之 类 的 数据 分 成 局 部 相关 的 组 。 


分 类 : 利用 已 经 存在 的 分 类 文档 训练 分 类 器 ， 对 未 分 类 的 文档 进 


推荐 引擎 〈 协 同 过 滤 ) : 获得 用 户 的 行为 并 从 中 发 现 用 户 可 能 喜 
欢 的 事物 。 


MAF OCH: 利用 一 个 项 集 (查询 记录 或 购物 目 隶 ) 去 识别 经 
常 一 起 出 现 的 项 目 。 


13.2 ”Mahout 的 安装 和 配置 


Mahout 是 一 个 开源 软件 ， 因 此 它 有 两 种 安装 方式 ， 一 种 是 下 载 已 
经 编译 好 的 二 进 制 文件 进行 安装 《快速 安装 ) ; 一 种 是 先 下 载 源 代 
码 ， 然 后 再 对 源 代 码 进 行 编译 ， 最 后 再 安装 (编译 安装 ) 。 下 面 我 们 


分 别 对 其 进行 介绍 。 


安 
安 


1. 快 速 安装 
下 面 为 该 方式 的 具体 安装 步 又 : 


(1) 下 载 Mahout 


从 下 面 链接 中 下 载 编译 好 的 二 进 制 文件 : 

http: //mirror.bjtu.edu.cn/apache/mahout / 

选择 最 新 的 版 本 目录 ， 即 0.6， 下 载 mahout-distribution-0.6.tar.gz。 
(2) 解压 下 载 的 文件 

使 用 下 面 的 命令 将 下 载 的 二 进 制 文件 解压 到 指定 的 文件 夹 中 。 


tar-zxvf mahout-distribution-0.6.tar.gz-C$HADOOP_HOME/ 


参数 -C 的 后 面 是 指定 的 文件 来， 这 里 是 $jHADOOP_HOME/。 


由 于 Mahout 不 仅 可 以 在 本 地 模式 下 运行 ， 还 可 以 利用 Hadoop 的 
MapReduce 运 行 作业 。 知 要 使 用 Hadoop 则 必须 正确 安装 Hadoop ， 并 配 
置 HADOOP_HOME 和 HADOOP_CONF_DIR 环 境 变量 ， 上 有 具体 参见 本 书 
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使 用 下 面 的 命令 配置 Mahout 所 需要 的 Hadoop 环 境 变量 : 


export HADOOP_HOME=/home/hadoop/hadoop-1.0.1 
export HADOOP_CONF_DIR=/home/hadoop/hadoop-1.0.1/conf 


此 外 ， 为 了 Mahout 操 作 方便 ， 可 以 将 Mahout 安 装 位 置 加 入 到 环境 
变量 中 ， 如 下 所 示 ; 


#Config Mahout 

export MAHOUT_HOME=/home/hadoop/hadoop-1.0.1/mahout - 
distribution-0.6 

export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf 

export PATH=$MAHOUT_HOME/conf: $MAHOUT_HOME/bin: $PATH 


=r 


2. 编 译 安装 


首先 需要 确保 系统 中 已 经 安装 了 JDK 1.6 以 上 版 本 及 Maven 2.0 以 
上 版 本 。JDK 的 安装 前 面 章 广 已 经 详细 介绍 ， 这 里 不 再 蕉 述 。 大 家 可 
以 使 用 下 面 命令 来 安装 Maven: 


sudo apt-get install maven2 


安装 完成 后 ， 可 以 对 maven 的 参数 进行 配置 ， 设 置 其 使 用 的 Java 推 


sudo gedit$MAVEN_HOME/bin/mvn 


在 mvn 文 件 中 找到 exec"$jJAVACMD"，， 在 它 之 后 加 上 - 
Xmx256m\ 即 可 ， 如 下 所 示 : 


exec"$JAVACMD"\ 

-Xmx256m\ 

$MAVEN_OPTS\ 
-Cclasspath"${M2_HOME}"/boot/classworlds.jar\ 
"-Dclassworlds.conf=${M2_HOME}/bin/m2.conf"\ 
"-Dmaven.home=${M2_HOME}"\ 
${CLASSWORLDS_LAUNCHER}$QUOTED_ARGS 


其 中 参数 -Xmx256m 指 定 的 是 Java 的 空间 大 小 ， 读 者 可 以 根据 具体 
情况 进行 设置 。 下 面 为 具体 的 操作 步骤: 


(1) 下 载 最 新 源码 


通过 Mahout 的 svn 库 来 下 载 当 前 Mahout 的 最 新 版 本 ，Mahout 将 被 
下 载 到 当前 目录 中 : 


svn co http: //svn.apache.org/repos/asf/mahout/trunk 


(2) 执行 安装 
进入 Mahout 的 根 日 录 ， 输 入 命令 安装 : 


cd trunk 
mvn install 


看 到 如 下 结果， 则 表明 安 洲 成功。 


[INFO] - ------ <2 2 22 nnn nn ee ee ne eee eee eee 
[INFO]Apache Mahout......SUCCESS[8.871s ] 

[INFO]Mahout Build Tools.....SUCCESS[2.696s ] 

[INFO]Mahout Math.....SUCCESS[39.651s] 

[INFO]Mahout Core.....SUCCESS[54: 46.562s] 

[INFO]Mahout Integration.....SUCCESS[3: 47.980s] 

[INFO]Mahout Examples.....SUCCESS[27.877s ] 

[INFO]Mahout Release Package.....SUCCESS[0.152s ] 

[INFO] ------ ee Ha a eens 


[INFO] Se i 


[INFO]Total time: 59 minutes 55 seconds 

[INFO]Finished at: Tue Jun 05 00: 07: 53 PDT 2012 

[INFO]Final Memory: 67M/142M 
[INFO]---------------------------------------------------------- 


该 命令 将 会 自动 编译 core 和 example 目 录 并 将 其 打包 。 从 上 面 可 以 
看 到 Mahout 的 安装 花费 时 间 较 长 ， 这 主要 是 由 于 执行 testing 部 分 的 操 
作 ， 使 用 下 面 命令 可 以 略 过 此 测试 部 分 


mvn-DskipTests install 


注意 ”采用 svn 下 载 的 Mahout 最 新 源码 有 诸多 好 处 ， 例 如 可 以 在 
$SMAHOUT_HOME/examples/src 目 录 下 查看 Mahout 许 多 算法 实现 的 源 
码 。 男 外 ， 此 版 本 中 还 保留 了 很 多 Mahout 测 试 使 用 的 数据 ， 例 如 
$MAHOUT_HOME/core/src/test/resources/ 目 录 下 FPGrowth 算 法 使 用 的 


零售 商 数据 。 


我 们 可 以 使 用 如 下 命令 来 检查 Mahout 是 否 安 痛 成 功 : 


bin/mahout -help 


如 果 安 装 成 功 ， 系 统 会 自动 列 出 Mahout 已 经 实现 的 所 有 命令 ， 如 
图 13-1 所 示 。 


至 此 Mahout 安 装 完 毕 。 


Mahonut 目 带 了 一 些 示 例 程序 ， 执 行 下 面 的 Hadoop 命 令 ， 可 以 运行 
Canopy 算 法 示例 : 


bin/hadoop jar$MAHOUT_HOME/mahout -examples-0.6.job 
org.apache.mahout.clustering. 
syntheticcontrol.canopy.Job 


Valid program sages 3 
arff.wector: ; te Vectors from an ARFF file or director 
bouneel ch; ç lgoriths for unsupervised HMM training 


resource the logistic regression models would see it 
Clearmwp and verificati of SYD output 
clusterdusp- ; Dump cluster output to text 
clusterpp: : Groups Clustering Gut In Clesters 
cadump: : mp confusion matrix in HINL or text forsats 
cvb: LDA via Collapsed Variation Bayes th deriv. approx} 
lon Bsyes, in semory locally 


e RSE and MAE of a rating atrix factorization apainst probes 
ams; ; Fi y K-eans clustering 
Frequent Pattern Growth 
heepredict Generate randon sequence of observations by given HMM 
itensimilarity: Cospute the ites-item-samilorities for item-based collaborative filtering 
keeans: : K-means Clust 
a; : Latent Direchlet 


CS; LOA Print 


e Vectors from a Lucene 1 
in v format 
motriamult: : product of two satri 
meanshift: : ustering 
minhash ustering 
pagerank; coupute the ger of è graph 
parallelALs: ; ALS-WR factorization of a rating matrix 
preparc2inewsgroups Reformat 28 newsgroups date 
ranthomwa lkwithrestart: Lo rert a source vertex in a graph 
recomecndfactorized: : wpute recomecnda 2 c on of a rating satrix 
recommend teabased Compute recommendat | aborative f ing 
rege vert text files on a per Line basis based on regular expressions 
rowið: : ọ Se cofile<Text,vectorwrit to {Sequencef iLe<Intwritable, vectorwritadle>, Sequencs 
rowsimilarity: : pute the pairwise similarities of the rows of a matrix 
runAdaptiv gist i iction data esing a probably trained and validated Adaptivelogi 
egression model against CSV data 
tor generation fros Text sequence f 


13-1 Mahout 实 现 命令 银 


转 到 Mahout 安 装 目 隶 下 ， 运 行 以 下 命令 可 以 将 结果 直接 显示 在 控 
制 合 上 : 


bin/mahout vectordump- -seqFile/user/hadoop/output/data/part- 
00000 


13.3 Mahout API 简 介 


当前 Mahout 最 新 版 本 的 API 为 Mahout Core 0.7-SNAPSHOT API!!! 
， 它 主要 可 以 分 为 以 下 几 部 分 : 8 


基于 协同 过 滤 的 Taste 相 关 的 API， 包 和 名 以 org.apache.mahout.cf.taste 
开始 ; 


聚 类 算法 相关 的 API， 包 名 以 org.apache.mahout.clustering 开 始 ; 
分 类 算法 ， 包 名 以 org.apache.mahout.classifier 开 始 ; 


频 尝 模式 算法 ， 包 名 以 org.apache.mahout.fpm 开 始 ; 


数学 计算 相关 算法 ， 包 名 以 org.apache.mahout.math 开 始 ; 


回 量 计算 相关 算法 ， 包 名 以 org.apache.mahout.vectorizer 开 始 。 


在 新 的 版 本 中 ，Mahout 已 经 实现 了 数据 挖掘 中 较 常见 算法 ， 包 
M: MARAI ` RR ` TRUKE E, BIN, EKI T AGE 
JEJE Fs H ITANE EYA o 


Apache Mahout 已 经 实现 的 聚 类 算法 有 : Canopy K AYE `K- 
Means 聚 类 算法 、 模 糊 K-Means 聚 类 算法 、Mean Shift 聚 类 算法 、 


Dirichlet 过 程 聚 类 算法 和 Latent Dirichlet Allocation 聚 类 算法 。 这 些 算 法 
相关 的 API 都 可 以 在 org.apache.mahout.clustering 包 中 找到 。 

下 面 以 K-Means 算 法 为 例 进 行 介绍 。K-Means 算 法 的 API 在 
org.apache.mahout.clustering.kmeans 包 中 ， 一 共 包 含 1 个 接口 和 3 个 类 4 


o 它们 分 别 是 KMeansConfigKeys、KCluster、KMeansDriver 利 


RandomSeedGenerator ° 
1.KMeansConfigKeys 接 口 


接口 KMeansConfigKeys 一 共有 三 个 参数 : 
DISTANCE. MEASURE KEY ~ CLUSTER CONVERGENCE KEY、 
CLUSTER_PATH_KEY， 每 个 参数 的 具体 意义 如 表 13-1 所 示 。 


表 13-1 接口 K-MeansConfigKeys 参数 表 


$i Hy 能 
DISTANCE MEASURE KEY K-Means 聚 类 算法 使 用 的 距离 测量 方法 
CLUSTER CONVERGENCE KEY K-Means W 4° SEE AYN SE 
CLUSTER PATH KEY K-Means 聚 类 算法 的 路 和 从 


2.KCluster 类 


该 类 通常 被 主 函 数 调用 ， 通 过 给 定 的 新 聚 类 中 心 和 距离 画 数 来 计 
算 痢 的 聚 类 ， 并 判断 聚 类 是 否 收敛 。 如 表 13-2 所 示 为 类 KCluster 的 主要 
函数 列表 : 


F 13-2 类 KCluster 的 主要 函数 列表 


方 法 Hii 述 
Kluster( Vector center, int clusterld, DistanceMeasure mik K-Means BRM MIRAE. PER ARAL 
measure} fe A ASN HER BE BA SE. BRL measure 用 


于 比较 点 之 间 的 距离 ，center RAR KH a>, clusterld 
为 新 聚 类 的 ID 


public static String formatCluster{K luster cluster) ea ehh) 


public boolean computeConvergence({DistanceMeasure| HARR EE He a 
measure, double convergenceDelta) 


3.KMeansDriver 类 


该 类 为 执行 聚 类 操作 的 入 口 函 数 ， 包 括 buildClusters、 
clusterData、run 及 main 等 国 数 ， 如 表 13-3 所 示 为 类 KMeansDriver 的 主要 


函数 列表 : 


对 于 详细 的 类 介绍 ， 请 大 家 自行 查阅 Mahout API 文 档 。 


main(java.lang.String[] args) throws java.lang.Exception 


public static void run(org.apache.hadoop.conf.Configuration 
conf, org.apache.hadoop.fs.Path input, org.apache.hadoop. 
fs.Path clustersin, org-apache.hadoop.fs.Path output, 
DistanceMecasure measure, double convergenceDelta, 
int maxlterations, boolean runClustering, double 
clusterClassification Threshold, boolean runSequential) throws 
IOException, InterruptedException, ClassNotFoundException 


[1] https: 


表 13-3 4 KMeansDriver 的 主要 函数 列表 
fii 还 
传人 的 参数 护照 runjJob 方法 由 的 参数 顺序 执行 
SRA Rie an Ff: 
conf， 输 大 点 的 日 录 路 径 名 
input， 初 奶 待 计算 的 输入 点 所 在 路 径 名 
clustersEm， 初 始 化 及 计算 聚 类 的 路 径 
output, Sql Rae RRA AH 
measure, PRAM 
convergenceDelta, Wir 24 {if 
max[terations， 最 大 迭代 次 数 
muinClustering， 和 村 代 完 成 之 再 是 否 继 续 聚 类 
clusterClassificationThreshold, 1E F iZ (A Ay #44 AS 
参与 聚 类 
runscqucntial， 是 否 执 行 sequcntial 算法 


//builds.apache.org/hudson/job/Mahout-Quality/javadoc ° 


[2] 在 Mahout Core 0.3 API 中 ， 该 包 一 共 包 含 1 个 接口 和 8 个 类 ， 在 0.7 版 


本 中 ， 对 其 进 


了 简化 。 


13.4 Mahout# Aya ARR Fe He 


13.4.1 ff Ae RICHER 


提 到 关联 规则 人 人 们 头脑 中 首先 内 过 的 便 是 “尿布 与 啤酒 的 故事 ”。 
首先 我 们 先 来 介绍 一 下 什么 是 “ 永 布 与 啤酒 的 故事 ”*”。 该 故事 是 类 国光 
处 玛 超市 的 真实 案例 。 沃 尔 玛 超 市 为 了 了 解 顾 客 在 超市 的 消费 习惯 ， 
从 而 对 消费 者 的 购物 数据 进行 分 析 。 他 们 将 消费 者 的 一 次 购物 消费 假 
设 成 为 一 个 购物 偶 ， 通 过 对 购物 篮 的 分 析 他 们 发 现 ， 奈 布 与 啤酒 竟然 
经 党 同时 出 现 。 该 现象 看 似 非 常 奇 怪 ， 然 而 它 却 揭示 了 美国 人 背后 的 
RM: 很 多 男子 经 芝 要 帮 妻 子 为 要 儿 购 买 尿 布 ， 而 同时 ， 他 们 中 
的 大 多 数 又 会 顺便 购买 目 己 喜爱 的 啤酒 。 


在 上 述 例子 中 ， 原 布 与 啤酒 的 经 常 性 一 同 出 现 便 可 以 认为 是 一 组 
频繁 模式 。 频 繁 模 式 挖 气 是 数据 挖掘 研究 中 的 一 个 重要 课题 ， 它 是 关 
联 规则 、 相 关 性 分 析 、 序 列 模式 、 因 有 果 关 系 等 许多 重要 数据 挖 抓 任务 
的 基础 。 因 此 ， 频 繁 模 式 挖 气 有 着 广泛 的 应 用 ， 例 如 购物 篮 数 据 分 
析 、 交 义 购 物 、DNA 序 列 分 析 、 预 测 分 析 等 。 


比较 经 典 的 频繁 模式 挖掘 包括 Apriori 算 法 、FPGrowth 算 法 、AGM 
算法 、PrefixSpan 算 法 等 。 


13.4.2 ”Mahout 中 的 频繁 模式 挖掘 


Mahout 中 实现 了 FPGrowth 算 法 ，FPGrowth 算 法 英文 全 称 
为 “Frequent Pattern Growth Algorithm”， 即 “ 频 党 模式 增长 算法 ”。 天 于 


算法 具体 内 容 可 参看 Mining frequent patterns without candidate 
generation 论 文 由 。 该 算法 包括 如 下 两 个 主要 步骤 ; 


1) PETIA ART, RUPP AY; 
2) 控 据 FP 树 ， 找 出 频繁 项 。 


我 们 可 以 通过 Mahout Shellf“$MAHOUT_HOME/bin/mahout 
fpg” 命 令 来 使 用 FPGrowth 进 行 频 党 模式 挖掘 ， 首 先 我 们 对 该 命令 的 可 
选 参数 进行 简要 介绍 ， 如 表 13-4 所 示 。 


表 13-4 Mahout fpg 参数 简介 


$: 数 ith aly 
--input (-i) Sc He ABA Ie 
--output {-0) 数据 输出 路 径 
--minSupport (-s) Be FFE. BRU 3 
--splitterPattern (-regex) 记录 通 进 行 来 表示 ， 读 参数 通 过 正则 表达 式 指定 行 中 天 之 间 和 的 分 隔 符 ， RUS 
| be | AL he 
--method {-method) 算法 运行 模式 ， 可 选 合 数 为 sequential| mapreduce 
--encoding (-€) 编 吗 方式 ， 上 默认 为 UTF-8 


更 多 参数 大 家 可 以 通过 输入 “mahout fgp-h” 来 查看 。 下 面 我 们 来 介 
绍 具体 的 操作 。 


1. 数 据 获 取 


在 执行 算法 之 前 我 们 首先 需要 获取 算法 操作 的 数据 (了 1。 
在 “$MAHOUT_HOME/core/src/test/resources/retail.dat”*” 位 置 ，Mahout 为 
我 们 提供 了 一 组 零售 商 销售 记录 数据 ， 该 数据 记录 的 项 之 间 通 过 空格 
进行 划分 。 该 数据 较 小 ， 共 包含 88162 条 记录 ， 用 于 测试 使 用 。 如 果 想 
要 使 用 更 大 的 数据 大 家 可 以 从 下 面 的 链接 中 下 载 : 
http: //fimi.cs.helsinki.fi/data/ ° 


2. 执 行 算法 


通过 “-method” 参 数 可 以 指定 算法 运行 的 模式 ， 下 面 我 们 在 不 同 模 
式 下 运行 处 理 数据 集 来 比较 算法 的 效率 。 


目 先 ， 我 们 在 sequential 模 式 下 执行 算法 ， 如 下 所 示 : 


bin/mahout fpg\ 

-i core/src/test/resources/retail.dat\ 
-0 patterns\ 

-k 50\ 

-method sequential\ 

-regex'[\]'\ 

-S 2 


可 以 看 到 该 算法 的 执行 时 间 为 : 


12/06/07 11: 04: 11 INFO driver.MahoutDriver: Program took 
2193567 ms (Minutes: 36.55945) 


然后 ， 我 们 在 MapReduce 模 式 下 执行 该 算法 。 在 执行 算法 之 前 我 
们 首先 需要 将 数据 复制 到 HDFS 中 ， 然 后 运行 算法 。 如 下 所 示 : 


bin/mahout fpg\ 
-i/user/hadoop/retail.dat\ 
-0 patterns2\ 

-k 50\ 

-method mapreduce\ 
-regex'[\]'\ 

-S 2 


可 以 看 到 该 算法 的 执行 时 间 为 : 


12/06/07 20: 19: 05 INFO driver.MahoutDriver: Program took 358158 
ms (Minutes: 5.9693) 


相 比 于 sequential 模 式 ， 算 法 执行 效率 提高 了 数 售 ， 这 恰恰 是 分 布 
式 的 优势 。 在 数据 量 更 大 的 情况 下 ， 该 优势 将 更 加 明显 。 


FPGrowth 算 法 的 执行 结果 会 以 SequenceFile 的 形式 存储 在 
frequentpatterns 目 录 下 ， 我 们 可 以 通过 下 面 命 令 来 查看 运行 的 结果 : 


bin/mahout seqdumper\ 
-s patterns2/frequentpatterns/part -r-00000\ 
-C 


上 述 命 令 中 ，-s 指 定 的 是 输入 文件 路 径 ，-c 用 于 统计 结果 记录 的 个 
数 ， 输 出 结果 如 下 所 示 : 


mahout seqdumper-s patterns2/frequentpatterns/part -r-00000-c 

Input Path: patterns2/frequentpatterns/part -r-00000 

Key class: class org.apache.hadoop.io.Text Value Class: class 
org.apache.mahout. 

fpm.pfpgrowth.convertors.string.TopkKStringPatterns 

Count: 14246 

12/06/07 19: 38: 44 INFO driver.MahoutDriver: Program took 2576 
ms (Minutes: 

0 .04293333333333333) 


该 结果 与 sequential 模 式 下 输出 结 末 相同 ， 大 家 可 以 对 其 进行 验 
UE ° 


[1] http: //citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.40.4436 & 
rep=rep1 &type=pdf ° 
[2] 以 svn 方 式 下 载 的 Mahout 版 本 中 该 示例 数据 。 


13.5 “Mahout 中 的 聚 类 和 分 类 


13.5.1 有 和 是 和 美和 个 天 


在 日 彰 生 活 中 经 常会 有 重复 的 事情 发 生 ， 人 们 会 把 目 己 遇 到 的 事 
情 和 记忆 中 的 事情 关联 起 来 。 例 如 ， 糖 采 使 人 们 想起 十 甜 味 ， 因 此 ， 
人 们 会 把 具有 甜 味 的 食物 归 类 为 甜食 。 即 使 人 们 没有 甜食 的 概念 ， 人 
们 也 能 把 甜 的 食物 进行 归 类 。 潜 意识 里 ， 人 们 能 够 自然 地 将 甜 与 否 进 
行 分 类 。 生 活 中 与 此 类 似 的 现象 还 有 很 多 ， 这 些 现象 就 是 分 类 。 


下 面 将 用 一 个 实际 的 例子 来 介绍 到 瓜 什 么 古 分 类 。 假 设 在 一 个 两 
岁 的 宝宝 面前 摆 放 一 些 水 果 ， 并 告诉 他 红色 圆 的 是 苹果 ， 桶 黄色 圆 的 
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第 一 个 是 建立 模型 阶段 ， 第 二 个 是 使 用 模型 阶段 。 建 立 模型 就 是 告诉 
两 岁 的 宝宝 具有 何 种 特征 的 水 果 是 荚果， 具有 何 种 特征 的 水 末 是 桥 
T: 使 用 模型 就 是 问 宝宝 义 红 义 大 的 是 不 是 苹果 。 


在 日 音 的 生活 中 除了 前 面 介绍 的 分 类 外 ， 还 有 很 多 种 不 同类 型 的 
聚 类 。 下 面 同样 用 一 个 实际 的 例子 来 介绍 聚 类 。 假 设 你 是 一 个 藏书 众 
多 的 图 书 饼 馆 长， 但 图 书 馅 中 的 书 古 混乱 的 ， 没 有 任何 顺序 。 来 到 图 
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找 书 的 过 程 非常 缓慢 。 对 于 任何 一 个 读者 来 说 ， 这 都 是 一 个 很 头痛 的 
问题 。 如 有 果 图 书 按照 书 名 的 首 字 母 进行 排列 ， 那 么 在 知道 书 名 的 情况 
下 寻找 一 本 书 将 会 变 得 非 第 容易。 如 果 图 书 按照 主题 进行 摊 放 ， 图 书 
查询 也 会 变 得 简单 易 行 。 将 众多 的 图 书 按照 主题 进行 排列 束 是 一 个 聚 
类 的 过 程 。 在 刚刚 接触 这 个 工作 的 时 候 ， 你 不 知道 这 些 书 会 有 多 少 种 
主题 ， 比 如 哲学 、 文 学 等 ， 也 许 还 会 有 一 些 你 从 未 听 说 过 的 主题 。 要 
完成 这 些 任 务 ， 你 首先 要 把 它们 排 成 一 列 ， 逐 本 查阅 。 当 直到 与 之 前 
的 书 主题 相似 ， 就 回 到 前 面 将 它们 放 在 一 起 ， 归 为 一 类 。 当 读 完 所 有 
的 书 时 ， 一 过 聚 类 便 完 成 了 ， 众 多 的 书籍 也 被 分 成 了 一 些 类 。 如 采 你 


觉得 第 一 遍 聚 类 的 结 末 不 够 精细 ， 你 可 以 进行 第 二 遍 聚 类 ， 直 到 目 己 
满意 为 止 


这 束 是 聚 类 ， 在 下 面 的 章节 中 ， 我 们 将 会 详细 地 介绍 Mahout 中 的 
AY EAU BA o 


13.5.2 ”Mahout 中 的 数据 表示 


生活 中 的 数据 会 以 各 种 各 样 的 形式 存储 ，Mahout 中 的 数据 也 会 以 
其 固定 的 形式 表示 。 在 Mahout 中 ， 数 据 将 会 以 同 量 的 形式 进行 存储 。 


多 数 人 对 癌 量 这 个 词 并 不 卫生 。 在 不 同 的 领域 ， 回 量具 有 不 同 的 
实际 意义 。 在 物理 中 ， 向 量 用 来 表示 力 的 大 小 和 方 同 ， 或 者 一 个 移动 
物体 的 速度 。 在 数学 中 ， 一 个 向 量 表 示 空 间 中 的 一 个 点 。 昌 然 它 们 代 
表 的 意义 不 同 ， 但 它们 表示 的 形式 是 相同 的 。 在 二 维 空间 中 ， 所 有 的 
癌 量 都 表示 成 诸如 (5, 6) 的 形式 ， 每 一 维 中 有 一 个 数字 。 当 计算 这 
个 二 维 同 量 时 ， 人 们 第 称 第 一 个 维度 为 X， 第 二 个 维度 为 Y。 但 是 在 现 
实生 活 中 ， 一 个 同 量 可 以 是 多 维度 的 。 按 照 顺序 ， 同 量 的 每 一 个 维度 
依次 被 称 为 0 维 、1 维 、2 维 .……. 


如 上 所 述 ， 回 量 是 按照 维度 排列 的 一 系列 有 序 的 值 。 因 此 ， 你 可 
能 已 经 想到 在 程序 设计 语言 中 用 一 维 数组 来 表示 向 量 。 使 用 这 种 方式 
表示 疝 量 ， 数 组 的 第 i 项 刚好 是 向 量 的 第 个 维度 的 值 。 这 是 一 种 很 好 
的 表示 癌 量 的 方法 ， 称 为 密集 癌 量 表示 法 。 


在 现实 生活 中 ， 一 个 具有 很 融 维 度 的 向 量 经 常会 在 很 多 维度 上 没 
有 值 。 这 里 的 没有 值 就 是 程序 设计 当中 空 的 概念 ， 在 同 量 中 它 会 表示 
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使 用 数组 表示 这 种 向 量 效 率 太 差 。 数 组 将 会 包含 很 多 个 0， 侦 尔 会 
有 一 个 非 0 值 。 舍 弃 众 多 的 0 值 ， 单 独 表示 非 0 值 是 一 种 很 合理 的 想法 。 
当 处 理 数 百 万 维度 市 有 很 多 0 值 的 癌 量 时 ， 密 集 问 量 表示 法 的 兹 端 变 得 
很 明显 。 


在 这 种 情况 下 ，Mahout 引 入 了 稀 玖 向 量 ， 将 非 0 值 所 在 的 维度 与 
该 维度 的 值 做 映射 。 这 可 以 通过 Java 中 的 Map 实 现 。 当 非 0 值 比较 少 
时 ， 这 种 存储 方式 比 使 用 基于 数组 的 稠密 存储 更 具 优 越 性 。 但 使 用 这 
种 方式 ， 程 序 需 要 更 多 的 内 存 空间 。 


在 Mahout 中 ， 有 关 问 量 表示 的 类 有 三 个 。 它 们 分 别 是 稠密 癌 量 
(DenseVector) 、 随 机 访问 稀 玻 向 量 (RandomAccessSparseVector) 
和 序列 访问 稀疏 癌 量 (SequentialAccessSparseVector) 。 


稠密 癌 量 由 一 个 double 型 的 数组 实现 。 当 问 量 具有 很 少 的 非 0 值 
时 ， 这 种 同 量 表示 法 的 效率 很 高 。 它 允许 快速 访问 回 量 所 在 任何 维度 
的 值 ， 并 且 能 够 快速 按 序 志 历 同 量 的 所 有 维度 。 


在 随机 访问 向 量 类 中 ， 疝 量 的 值 存储 在 类 似 于 HashMap 的 结构 
中 ， 键 是 int 型 、 值 是 double 型 的 。 只 有 维度 上 的 值 非 0， 该 维度 值 才 会 
被 存储 。 当 一 个 同 量 的 一 些 维度 值 非 O 时 ， 用 随机 访问 同 量 方式 表示 癌 
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速度 和 按 序 遍历 所 有 维度 值 的 速度 比较 慢 。 


序列 访问 回 量 使 用 int 和 double 的 并 行 数组 表示 回 量 。 因 此 ， 使 用 
它 按 友 裔 历 整个 向 量 的 各 个 维度 是 很 快 的。 但 是 随机 搬入 和 查询 茶 一 
维度 的 值 时 速度 要 慢 于 随机 访问 回 量 。 


三 种 表示 向 量 的 方式 使 得 Mahout 的 算法 能 够 按照 数据 特性 、 数 
据 访 问 方式 实现 。 具 体 使 用 哪 种 表示 方法 是 按照 算法 的 特性 进行 选择 
的 。 如 有 果 算 法 具有 很 多 对 向 量 值 的 随机 搬入 和 更 新 ， 束 应 该 选择 稠密 
品 量 或 随机 访问 向 量 来 表示 向 量 。 因 为 这 两 个 向 量具 有 快速 随机 访问 
的 特性 。 而 对 于 需要 重复 计算 向 量 大 小 的 K-Means 素 类 算法 ， 选 择 序 
列 访问 向 量 比 选 择 随 机 访问 向 量 好 。 


13.5.3 ”将 文本 转化 成 器 量 


讨论 完 如 何 存 储 向 量 ， 下 面 我 们 开始 讨论 如 何 将 文本 转化 成 向 
量 。 在 信息 时 代 ， 文 本 文件 的 数量 呈 爆 炸 式 增长 。 仅 Google 搜 索引 擎 
的 索引 残 有 200 亿 的 Web 文 档 。 文 本 数据 是 海量 的 ， 这 些 海量 数据 中 缠 
含 看 大 量 的 知识 。 公 司 或 机 构 可 以 使 用 诸如 聚 类 、 分 类 的 机 妖 学 习 算 
法 去 发 现 这 些 知识 。 学 习 用 疝 量 表示 文本 是 从 海量 数据 中 发 现 知识 的 
第 一 步 。 

回 量 空 间 模型 (VSM, Vector space model) 是 最 常用 的 相似 度 计算 
模型 。Mahout 中 对 文本 的 聚 类 使 用 了 这 种 技术 。 什 么 是 同 量 空间 模 
型 ? 下 面 做 一 个 简单 的 介绍 。 

假设 共有 10 个 词 w ，w ，.……，wi0 ，5 篇 文章 di `d, `d} `d 
和 ds 。 统 计 所 得 的 词 频 表 如 表 13-5 所 未 。 


表 13-5 空间 向 量 模 型 表 


这 个 词 频 表 就 是 空间 向 量 模型 。 对 于 任意 的 两 篇 文档 ， 当 要 计算 
它们 的 相似 度 时 ， 可 以 选择 计算 两 个 向 量 的 余弦 值 。 如 果 余 弦 值 为 1， 


则 说 明 两 篇 文档 完全 相同 ， 如 采 余 弦 值 为 0， 则 说 明 两 篇 文档 完全 不 
同 。 总 之 ， 在 [0，1] 内 余弦 值 越 大 ， 两 篇 文章 相似 度 越 大 。 除 了 计算 余 
弦 值 以 外 ， 还 有 其 他 的 方法 测量 两 篇 文章 的 相似 度 ， 这 里 不 作 介绍 。 


在 Mahout 下 处 理 的 数据 必然 是 海量 数据 。 竺 处 理 的 文本 包含 的 所 
有 单词 就 是 例子 中 的 单词 w， 竺 处理 的 文本 文件 就 是 相应 的 d。 可 以 想 
象 ， 街 处理 文本 所 包含 的 单词 量 是 巨大 的 ， 因 此 ， 文 本 辐 量 的 维度 也 
征 巨 大 的 。 示 例 中 的 具体 数值 是 某 个 单词 在 特定 文章 中 出 现 的 次 数 ， 
称 为 词 频 (term frequency) 。 例 如 ， 表 中 的 1 代表 单词 wi 在 di 文档 中 
出 现 一 次 ， 其 词 频 为 1。 


在 一 些 简 单 的 处 理 方 法 中 ， 可 以 只 通过 词 频 来 计算 文本 间 的 相似 
度 ， 不 过 当 某 个 关键 词 在 两 篇 长 度 相 差 很 大 的 文本 中 出 现 的 频率 相近 
时 ， 会 降低 结果 的 准确 性 。 因 此 通常 会 把 词 频数 据 正规 化 ， 以 防止 词 
频数 据 偏向 于 关键 词 较 多 、 即 较 长 的 文本 。 如 某 个 词 在 文档 dj 中 出 现 
了 100 次 ， 在 d 中 出 现 了 100 次 ， 仅 从 词 频 看 来 ， 这 个 词 在 这 两 个 文档 
中 的 重要 性 相同 ， 然 而 ， 再 考虑 另 一 个 因素 ， 融 是 di 的 关键 词 总 数 是 
1000， 而 d, 的 关键 词 总 数 是 100000， 所 以 从 总 体 上 看 ， 这 个 词 在 d; 和 
d 中 的 重要 性 是 不 同 的 。 正 规 化 处 理 的 方法 是 用 词 频 除 以 所 有 文档 的 
关键 词 总 数 。 


当 仅 使 用 词 频 来 区 分 文档 时 ， 还 会 遇 到 这 样 一 个 问题 。 众 所 周 
知 ， 一 篇 文章 会 包含 很 多 诸如 一 、 二 、 你 、 我 、 他 等 的 单词 ， 并 且 这 


些 词 语 会 多 次 出 现 。 很 明显 ， 无 论 使 用 何 种 距离 来 测算 两 篇 文章 的 相 
似 度 ， 这 些 经 常 出 现 的 词汇 都 会 对 结果 起 到 很 大 的 负面 影响 。 但 这 些 
词语 并 不 能 区 分 两 份 文档 ， 相 似 性 判断 也 因此 变 得 不 再 准确 。 把 文档 
按照 相似 性 进行 合理 的 聚 类 束 更 不 可 能 了 。 为 了 解决 这 个 问题 ， 入 们 


使 用 了 TF-IDF (Term Frequency-Inverse Document Frequency) 技术 。 


TF-IDF 是 一 种 统计 方法 ， 用 以 评估 一 个 字 词 对 于 一 个 文件 集 或 一 
个 语料库 中 一 份 文件 的 重要 程度 。 字 词 的 重要 性 随 着 它 在 文件 中 出 现 
的 次 数 成 正比 增加 ， 但 同时 会 随 着 它 在 语料库 中 出 现 的 频率 成 反比 下 
降 。TF-IDF 的 主要 思想 是 ， 如 果 某 个 词 或 短语 在 一 篇 文章 中 出 现 的 频 
率 TF 高 ， 并 且 在 其 他 文章 中 很 少 出 现 ， 则 认为 此 词 或 短语 具有 很 好 的 
类 别 区 分 能 力 ， 适 合用 来 分 类 。TF-IDF 实 际 上 是 TF*IDF, TF 代表 词 频 
(Term Frequency) ， 表 示 词 条 在 文档 中 出 现 的 频率 ;IDEF 代 表 反 文档 
频率 (Inverse Document Frequency) ，IDE 的 主要 思想 是 ， 如 果 包 含 词 
语 w 的 文档 越 少 ，IDF 越 大 ， 则 说 明 词 语 w 具 有 很 好 的 类 别 区 分 能 力 。 


13.5.4 ”Mahout 中 的 聚 类 、 分 类 算法 


Mahout 目 前 已 经 实现 了 Canopy 聚 类 算法 、K-Means 聚 类 算法 、 
Fuzzy K-Means 聚 类 算法 、Dirichlet 过 程 聚 类 算法 等 众多 聚 类 算法 。 除 
此 之 外 ，Mahout 还 实现 了 贝 叶 斯 (Bayes) 分 类 算法 。 这 里 主要 介绍 
简单 且 应 用 广泛 的 K-Means 聚 类 算法 和 贝 叶 斯 分 类 算法 。 


K-Means 聚 类 算法 能 轻松 地 对 几乎 所 有 的 问题 进行 建 模 。 区 -Means 
案 类 算法 容易 理解 ， 并 且 能 在 并 行 计算 机 上 很 好 地 运行 。 学 习 K- 
Means 育 类 算法 ， 能 更 容易 理解 案 类 算法 的 缺点 ， 以 及 其 他 算法 对 于 
等 定数 据 的 高 效 性 。 


K-Means 聚 类 算法 的 K 是 聚 类 的 数目 ， 在 算法 中 会 强制 要 求 用 户 得 
入 。 对 于 将 新 闻 聚 类 成 诸如 政治 、 经 济 、 文 化 等 大 类 ， 可 以 选择 10 到 
20 之 间 的 数字 作为 K。 因 为 这 种 顶级 的 类 别 数量 是 很 小 的 。 如 果 要 对 
这 些 新 闻 详 细 分 类 ， 选 择 50 到 100 之 间 的 数字 也 是 没有 问题 的 。 假 设 数 
据 库 中 有 一 百 万 条 新 闻 ， 如 果 想 把 这 一 百 万 条 新 闻 按照 狐 闻 谈论 的 内 
容 进行 率 类 ， 则 这 个 案 类 数目 远 远大 于 之 前 的 率 类 数目 。 因 为 每 个 育 
类 中 的 新 闻 数 量 不 会 太 大 。 这 束 要 求 选 择 一 个 诸如 10 OOOH FERAL 
值 。 聚 类 数值 K 的 取 值 范围 不 定 ， 它 既 可 以 小 至 儿 个 ， 也 可 以 大 至 几 


万 个 。 这 就 对 算法 的 伸缩 性 提出 了 很 高 的 要 求 ， 而 Mahout 下 实现 的 K- 
Means 聚 类 算法 束 具 有 很 好 的 伸缩 性 


K-Means 聚 类 算法 主要 可 以 分 为 三 步 。 第 一 步 是 为 行 聚 类 的 点 寻 
找 案 类 中 心 ， 第 二 步 是 计算 每 个 点 到 聚 类 中 心 的 距离 ， 将 每 个 点 聚 类 
PBA RRO RAR PS, Bo eT RAR EMA AY AG PE 
值 ， 并 将 这 个 平均 值 作为 新 的 聚 类 中 心 点 。 反 复 执行 第 二 步 ， 直 到 育 

类 中 心 不 再 进行 大 范围 移动 ， 或 者 聚 类 次 数 达到 要 求 为 止 。 


假设 有 n 个 点 ， 需 要 将 它们 聚 类 成 K 个 组 。K-Means 算 法 会 以 K 个 
随机 的 中 心 点 开始 。 算 法 反复 执行 上 文中 提 到 的 第 二 步 和 第 三 步 ， 直 
至 终止 条 件 得 到 满足 。 接 下 来 以 9 个 点 为 例 ， 配 以 相应 图 示 介 绍 K- 
Means 算 法 。 


企 聚 类 前 ， 首 先 在 二 维 平面 中 随机 选择 9 个 点 ， 坐 标 分 别 为 〈7， 
8) 、 (12, 1) 、 (13, 6) 、 (13, 13) > (13, 19) 、 (14, 
5) 、 (17, 16) 、 (19, 20) `œ (20, 7) 


1) 系统 首先 选取 前 3 个 点 (7, 8) 、 (12, 1) 、 (13, 6) 作为 
聚 类 中 心 ， 然 后 计算 每 个 点 到 聚 类 中 心 的 距离 ， 该 点 距离 哪个 聚 类 中 
心 的 距离 最 小 就 归属 于 哪个 聚 类 中 心 。 经 过 计算 ， 点 (7，8) 

(13, 19) 为 1 个 衰 类 ， 点 (12，1) Hi DBR, A (13, 6) 


(13, 13) 、 (14, 5) 、 (17, 16) 、 (19, 20) 、 (20, 7) 为 1 个 
聚 类 ， 如 图 13-2 所 示 。 


13-2 聚 类 的 九 个 点 


2) 更 新 聚 类 的 聚 类 中 心 ， 新 的 聚 类 中 心 的 值 为 聚 类 中 所 有 成 员 的 
PHE e RX (7, 8) ` (13, 19) 的 新 聚 类 中 心 为 〈10.0，13.5) ， 
RR (12, 1) 的 新 聚 类 中 心 仍 为 (12.0, 1.0) , RX (13, 6) ` 
(13, 13) `œ (14, 5) `œ (17, 16) 、 (19, 20) > (20, 7) 的 新 
聚 类 中 心 为 〈16.0，11.2) ， 如 图 13-3 所 示 。 


1) 根据 前 面 生成 的 聚 类 中 心 (10.0, 13.5) ` (12.0, 1.0) > 
(16.0, 11.2) 重新 计算 每 个 点 和 聚 类 中 心 点 之 间 的 距离 ， 根 据 计 算出 
的 距离 对 该 点 进行 聚 类 。 结 果 点 (7, 8) 、 (13, 13) 、 (13, 19) 


Als, 点 (12, 1) > (13, 6) ` (14, 5) 为 1 个 聚 类 ， 点 
(17, 16) 、 (19, 20) 、 (20, 7) 为 1 个 聚 类 。 


2) PRR RAPD, RR (7, 8) > (13, 13) 、 (13, 
19) 的 新 聚 类 中 心 为 〈11.0，13.3) , RX (12, 1) ` (13, 6) ` 
(14, 5) 的 新 聚 类 中 心 仍 为 〈13.0，4.0) , RX (17, 16) ` (19, 
20) 、 (20, 7) 的 新 聚 类 中 心 为 (18.7, 14.3) ， 如 图 13-4 所 示 。 


根据 上 一 步 来 看 ， 聚 类 结果 没有 发 生变 化 ， 满 足 收敛 条 件 ，K- 
Means 聚 类 结束 ， 如 图 13-5 所 示 。 


介绍 完 K-Means 聚 类 算法 ， 下 面 开始 介绍 贝 叶 斯 (Bayes) 分 类 算 
法 。 贝 叶 斯 (Bayes) 分 类 算法 是 一 种 基于 统计 的 分 类 方法 ， 用 来 预测 
某 个 样本 属于 某 个 分 类 的 概率 有 多 大 。 贝 叶 斯 (Bayes) 分 类 算法 是 基 
于 贝 叶 斯 定理 的 分 类 算法 。 


贝 叶 斯 分 类 算法 有 很 多 变种 。 在 这 里 主要 介绍 朴素 贝 叶 斯 分 类 算 
法 。 何 谓 朴 素 ?” 所 谓 杆 素 就 是 假设 各 属性 之 间 是 相互 独立 的 。 经 过 研 
究 发 现 ， 大 多 数 情况 下 ， 朴 素 贝 叶 斯 分 类 算法 (Naive Bayes 
Classifier) 在 性 能 上 和 决策 树 (Decision Tree) 、 神 经 网 络 (Netural 
Network) 相当 。 当 针对 大 数据 集 的 应 用 时 ， 贝 叶 斯 分 类 算法 具有 方法 
简单 、 高 准确 率 和 高 速度 的 优点 。 但 事实 上 ， 贝 叶 斯 分 类 算法 也 有 其 
缺点 。 缺 点 就 是 贝 叶 斯 定理 假设 一 个 属性 值 对 给 定 类 的 影响 独立 于 其 
他 属性 的 值 ， 而 此 假设 在 实际 情况 中 经 常 是 不 成 立 的 ， 因 此 其 分 类 准 
确 率 可 能 会 下 降 。 
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图 13-5 第 三 次 聚 类 的 结果 


朴素 贝 叶 斯 分 类 算法 是 一 种 监督 学 习 算法 ， 使 用 朴素 贝 叶 斯 分 类 
算法 对 文本 进行 分 类 ， 主 要 有 两 种 模型 ， 即 多 项 式 模 型 (multinomial 
model) 和 伯 努 利 模型 (Bernoulli model) 。Mahout 实 现 的 贝 叶 斯 分 类 
算法 使 用 的 是 多 项 式 模型 。 对 算法 具体 内 容 感 兴趣 的 读者 可 以 阅读 
http: //people.csail.mit.edu/jrennie/papers/icml03-nb.pdf EA X |! ° AX 
书 将 以 一 个 实际 的 例子 来 简略 介绍 使 用 多 项 式 模 型 的 朴素 贝 叶 斯 分 类 

(Naive Bayes Classifier) 算法 。 


给 定 一 组 分 类 号 的 文本 训练 数据 ， 如 表 13-6 所 示 。 


表 13-6 文本 训练 数据 表 


1 FH dest. ha 


Phil. Pi. Ei 


给 定 一 个 新 的 文档 样本 “中 国 、 中 国 、 中 国 、 东 京 、 日 本 ， 对 该 
样本 进行 分 类 。 该 文本 属性 向 量 可 以 表示 为 d= (中 国 ， 中 国 ， 中 国 ， 
Am, AA) ， 类 别 集合 Y={ 是 ， 否 }。 类 别 “ 是 ?下 共有 8 个 单 
词 , “和 否 ” 类 别 下 面 共 有 3 个 单词 。 训 练 样本 单词 总 数 为 11。 因 此 P 
(是 ) =8/11, P (@) =3/11 ° 


类 条 件 概率 计算 如 下 : 


P (中 国 | 是 ) = (5+1) / (8+6) =6/14=3/7: 


P (日 本 | 是 ) =P 〈 东 京 | 是 ) = (0+1) / (8+6) =1/14; 
P (中 国 | 否 ) = (1+1) / (3+6) =2/9; 
P (日 本 | 否 ) =P (东京 | 否 ) = (1+1) / (3+6) =2/9 ° 


上 面 4 条 语句 分 母 中 的 8， 是 指 “ 是 ?类别 下 训练 样本 的 单词 总 数 ，6 
征 指 训练 样本 有 有 中国， 北京， 上海， 澳门 ， 东 系 ， 日 本 ， 共 6 个 单词 ， 
3 是 指 “ 否 ”类 别 下 共有 3 个 单词 。 有 了 以 上 的 类 条 件 概 率 ， 开 始 计算 后 


P (是 |d) = (3/7) 3x1/14x1/14x8/11=108/184877~0.00058417; 


P (ld) = (2/9) 3x2/9x2/9x3/11=32/216513~0.00014780 ° 


因此 ， 这 个 文档 属于 类 别 中 国 。 这 就 是 Mahout 实 现 的 贝 叶 斯 
(Bayes) 分 类 算法 的 主要 思想 。 


[1] Trackling the Poor Assumptions of Naive Bayes Text classifiers. 


13.5.5 ”算法 应 用 实例 


下 面 我 们 将 对 如 何 使 用 Mahout 进 行 案 类 和 分 类 进行 具体 介绍 ， 其 
中 素 类 算法 以 K-Means 为 例 ， 分 类 算法 以 贝 叶 斯 (Bayes) 为 例 。 


1.K-Means 聚 类 


在 Mahout 中 运行 K-Means 聚 类 算法 非常 简单 。 对 于 不 同 的 数据 主要 
有 以 下 三 个 步骤 。 


使 用 seqdirectory 命 令 将 待 处理 的 文件 转化 成 序列 文件 。 
使 用 seq2sparse 命 令 将 序列 文件 转化 成 器 量 文件 。 
使 用 kmeans 命 令 对 数据 运行 K-Means 聚 类 算法 。 


将 文本 文件 转化 成 向 量 需 要 两 个 重要 的 工具 。 一 个 是 
SequenceFilesFromDirectory 类 ， 它 能 将 一 个 目录 结构 下 的 文本 文件 转化 
成 序列 文件 ， 这 种 序列 文件 为 一 种 中 间 文 本 表示 形式 。 男 一 个 是 
SparseVectorsFromSequenceFiles 类 ， 它 使 用 词 频 (TF) 或 TF-IDF (TF- 
IDF weighting with n-gram generation) 将 序列 文件 转化 成 向 量 文件 。 序 
列 文件 以 文件 编号 为 键 、 文 件 内 容 为 值 。 下 面 讨论 如 何 将 文本 转换 成 


HÆ -o 


使 用 路 透 社 14578 新 闻 集 作为 示例 数据 。 这 组 数据 被 广泛 应 用 于 机 
妖 学 习 的 研究 中 ， 它 起 初 是 由 卡 内 基 集 团 有 限 公 司 和 路 透 社 共 同 搜 集 
整理 的 ， 目 的 是 发 展 文本 分 类 系统 。 路 透 社 14578 新 闻 集 分 布 于 22 个 文 
档 中 ， 除 最 后 的 reut2-0.14.sgm 包 含 578 份 文件 外 ， 其 余 的 每 个 文件 包含 
1 000 份 文件 。 


路 透 社 14578 新 闻 集 中 的 所 有 文件 都 为 标准 通用 标记 语言 SGML 

(Standard Generalized Markup Language) 格式 ， 这 种 格式 的 文件 与 
XML 文件 格式 相似 。 可 以 为 SGML 文 件 创 建 一 个 分 析 器 (parser) ， 并 
将 文件 编号 (document ID) 和 文件 内 容 (document text) 写 到 序列 文 
件 (SequenceFiles) 中 去 。 然 后 用 前 文 提 到 的 向 量化 工具 将 序列 文件 转 
化 成 向 量 。 但 是 ， 更 快捷 的 方式 是 使 用 Lucene Benchmark JAR 文 件 提供 
的 路 透 社 分 析 器 (the Reuters Parser) ° Lucene Benchmark JAR 是 捆绑 
在 Mahout 上 的 ， 剩 下 的 工作 只 是 到 Mahout 目 录 下 的 examples 文 件 夹 运 
行 org.apache.lucene.benchmark.utils.ExtractReuters 类 。 在 这 之 前 ， 需 要 
从 
http: //www.daviddlewis.com/resources/testcollections/reuters14578/reuters 
14578.targz 下 载 路 透 社 狐 闻 集 ， 并 将 它 解 压 到 Examples/Reuters 文 件 夹 
下 。 相 关 命 令 如 下 所 示 : 


mvn-e-q exec: java 


Dexec.mainClass="org.apache.lucene.benchmark.utils.ExtractReuters" 


-Dexec.args="reuters/reuters-extracted/" 


使 用 解压 得 到 的 文件 夹 运行 SequenceFileFromDirectory 类 。 使 用 下 
面 的 脚本 命令 (Launch script) 可 以 实现 该 功能 


bin/mahout seqdirectory-c UTF-8 
-i examples/reuters-extracted/ 
-o reuters-seqfiles 


这 条 命令 的 作用 是 将 路 透 社 文章 转化 成 序列 文件 格式 ， 如 表 13-7 所 
示 “。 


表 13-7 seqdirectory 命令 参数 表 


& t fii 述 
--chunkSize (-chunk) chunkSize Vises KH ae. BRUTE 64MB 
--charset (-c) charset 输 人 文件 使 用 的 编码 方式 ， 多 使 用 LUTF-& 
--input (-i) input $y A sc (YS fic E 
--output (-o} output 输出 文件 的 位 置 
--help (-h) 输出 帮助 信息 


现在 剩 下 的 工作 是 将 序列 文件 转化 成 向量 文件 。 运 行 
SparseVectorsFromSequenceFiles 类 即 可 实现 该 功能 。 命 令 如 下 : 


bin/mahout seq2sparse-i reuters-seqfiles/-o reuters-vectors-w 


ER, Eseq2sparsetnS F, SA-wH RER Oe ew AF 
夹 。Mahout 用 来 处 理 海量 的 数据 ， 任 何 一 个 算法 的 输出 都 会 花费 很 多 
时 间 。 有 了 参数 -w Mahout 就 可 以 防止 新 产生 的 数据 对 未 完全 输出 的 数 


据 进 行 破坏 。 除 此 之 外 ，seq2sparse 命 令 还 有 以 下 参数 ， 如 表 13-8 所 


Hs 


3% 13-8 seq2sparse 命令 参数 表 


2 数 fi £ 
HSRRERGRSERWAA. MRARRESEH, HrK, Weie 
FE: WR ERATE. WRASSE 


-w (boolean) 


a (String) BEAM Bae. KUJE org-apache.lucene.analysis.standard.StandardAnalyzer 
分 块 大 小 以 MB 为 单位 。 在 阿 量化 过 程 中 ，GB 或 TB 级 的 数据 不 能 完全 放 入 内 存 中 。 因 
-chunk(int) He eR op REN SRE A R(t. 建议 使 用 Hadoop 子 节点 中 Java 堆 大 小 的 
80%. ik AERO 100MB 
-wt (String) EVAR IMAL HAE. tf 为 TF，tfidf 4 TF-IDF. BEV COO MENA TF-IDF 


95 4 SNe A eR dS Re IRA. AR TE Re Reh PA, Ze g. 


cae. 默认 值 为 2 

-minDF (int) 最 小 的 文件 频率 (document frequency), Ek UA {fide 1 

-x (int) TERR RR a a, PAL O~100 eA EA, BRIA TOF 99 

-ng (int) 最 大 的 N-gram ffi, BEIR 2 

-ml ( float) 最 小 对 数 似 然 函 数 。 默 认 值 为 1.0。 此 参数 不 是 必须 的 

-nr (int) Reduce ERARE. BUH 1. ASAP ay 

aig taal 是 GF 4 & R UL SequentialAccessVectors E SR 出 。 如果 和 设置， 则 以 


SequentialAccess Vectors 形式 输出 


Mahout 的 seq2sparse 命 令 的 功能 是 从 序列 文件 中 读 取 数据 ， 使 用 上 
面 提 到 的 默认 参数 ， 按 照 基于 向 量化 (vectorizer) 的 字典 生成 向 量 文 
件 。 大 家 可 以 使 用 以 下 命令 检查 生成 文件 夹 : 


ls reuters-vectors/ 


执行 上 述 命令 后 ， 结 果 如 下 所 示 : 


dictionary.file-0 
tfidf/ 
tokenized-documents/ 
vectors/ 

wordcount/ 


输出 文件 夹 包含 一 个 目录 文件 和 四 个 文件 夹 。 目 录 文 件 保存 着 术 
语 (term) 和 整数 编号 之 间 的 映射 。 当 读 取 算法 的 输出 时 ， 这 个 文件 是 
非常 有 用 的 ， 因 此 ， 需 要 保留 它 。 其 他 四 个 文件 夹 是 向量 化 过 程 中 生 
成 的 文件 夹 。 回 量化 过 程 主 要 有 以 下 几 步 : 


第 一 步 ， 标 记 文 本 文档 。 有 具体 过 程 是 使 用 Lucene StandardAnalyzer 
将 文本 文档 分 成 个 体 化 的 单词 ， 将 结果 存储 在 tokenized-documents 文 件 
ser 8 


第 二 步 ， 对 tonkenized 文 档 进 行 迭 代 生 成 一 个 重要 单词 的 集合 。 这 
个 过 程 可 能 会 使 用 单词 统计 、n-gram 生 成 ， 这 里 使 用 的 是 unigrams 生 
成 o 


第 三 步 ， 使 用 TF 将 标记 的 文档 转化 成 同 量 ， 从 而 创建 TF 向量 。 在 
默认 情况 下 ， 向 量化 是 使 用 TF-IDF， 因 此 需要 分 两 步 来 进行 ， 一 是 文 
档 频 率 (document-frequency) 的 统计 工作 ; 二 是 创建 TF-IDF 向 量 。TEF- 
IDF 向 量 在 tfidf/vectors 文 件 夹 下 。 对 于 大 多 数 的 应 用 来 说 ， 需 要 的 仅仅 
是 目录 文件 和 tfidf/vectors 文 件 夹 。 


使 用 kmeans 命 令 可 以 对 数据 运行 K-Means 聚 类 算法 。 命 令 如 下 : 


bin/mahout kmeans 
-i./examples/bin/work/reuters-out-seqdir-sparse/tfidf/vectors/ 
-c./examples/bin/work/clusters 
-o./examples/bin/work/reuters-kmeans 

-k 20-w 


表 13-9 列 出 了 K-Means 命 令 参 数 的 具体 意义 。 


表 13-9 K-Means 聚 类 算法 列表 


4 数 ie 述 
--k {-k} k K-Mcans 算法 中 的 KK (A. WR Ae Eh 
--input (-i) input 输入 文件 的 位 置 ， 输 入 文件 必须 是 序列 文件 
--output (-o} outpu 输出 文件 的 位 置 
--distance (-m) distance 使 用 的 距离 测量 方法 ， BR OE LPR 
--convergence (-d} convergence Wie Ay (A EK UA 0.5 
--max {-x} max RAW, WAEA 20 
--numReduce {-r) numReduce Reduce 任务 的 数 莫 
--vectorClass (-v) vectorClass fe) ek Pr A a) EE Ae. WIE RandomAccessSparse Vector.class 
--overwrite (-w) 决定 是 否 对 和 输出 结果 进行 覆盖 ， GRIER. WS RE LS R 


2. 贝 叶 斯 分 类 


在 已 经 安装 好 Hadoop 和 Mahout 的 前 提 下 ， 运 行 Bayes 分 类 算法 也 比 
较 简 单 。 这 里 简要 介绍 Mahout 的 示例 程序 20NewsGroup 的 分 类 。 实 际 
上 ， 除 了 20NewsGroup 示 例 之 外 ， 还 有 Wikimapia 数 据 ， 但 由 于 其 数据 
量 达到 了 将 近 7GB ， 对 大 多 数 初 学 者 而 言 并 不 合适 。 这 里 我 们 选择 数 
据 量 较 小 有 旦 非常 经 典 的 20NewsGroup 示 例 的 分 类 。 


什么 是 20NewsGroup? 20 新 闻 组 包含 20 000 个 新 闻 组 文档 ， 这 些 文 
档 可 以 被 分 类 成 20 个 新 闻 组 。20 新 闻 组 最 初 来 源 于 Ken Lang 的 论文 
《Newsweeder: learning to filter netnews》“。 从 那 以 后 ，20 新 闻 组 数据 
集合 在 机 器 学 习 领 域 越 来 越 多 地 被 用 作 实验 数据 。 在 文本 聚 类 和 分 类 
方面 的 研究 中 使 用 尤为 突出 。20 新 闻 组 按照 20 个 不 同 的 类 型 进行 组 
织 ， 不 同 的 类 对 应 不 同 的 主题 。 本 书 用 到 的 20 新 闻 组 数据 可 以 从 


http: //people.csail.mit.edu/jrennie/20Newsgroups/ 下载。 在 下 载 页 面 中 ， 
一 共有 三 种 版 本 的 20 新 闻 组 数据 ， 分 别 是 20news-19997.tar.gz、20news- 


bydate.tar.gz 和 20news-18828.tar.gz。 


20news-19997. tar.gz 是 最 原始 的 版 本 数据 ，20news-bydate.tar.gz 是 
按照 日 期 进行 排序 的 ， 其 中 的 60% 用 来 进行 训练 Bayes 分 类 算法 ，40% 
用 来 测试 Bayes 分 类 算法 ,不 包含 重复 新 闻 和 标识 新 闻 组 的 标题 ; 
20news-18828.tar.gz 不 包含 重复 的 新 闻 ， 但 是 包含 珊 有 新 闻 来 源 和 新 闻 
主题 的 标题 。 这 三 种 20 新 闻 组 数据 都 是 以 targz 形 式 存 在 的 。 读 者 使 用 
tar 命 令 对 它们 进行 解压 即 可 得 到 相应 的 数据 。 有 具体 选择 哪 种 数据 对 结 
果 影 响 不 大 ， 这 里 我 们 选择 20news-bydate.tar.gz。 


介绍 完 20NewsGroup 后 ， 下 面 开 始 介绍 如 何 运行 Mahout 上 自 市 的 


Naive Bayes Classifier 算 法 示例 。 


数据 下 载 完成 后 并 不 可 以 直接 使 用 ， 可 以 看 到 ， 数 据 在 目录 中 均 
征 以 文件 夹 进行 区 分 ， 即 数据 已 经 被 分 好 类 别 。 因 此 我 们 首 爷 需要 获 
取 所 需 格式 的 数据 。 该 操作 可 以 通过 如 下 两 个 命令 完成 : 


获取 训练 集 : 


mahout 
org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups\ 

- pS$SDATA_HOME/20news -bydate-train\ 

-O$DATA_HOME/bayes-train-input\ 

-a org.apache.mahout.vectorizer.DefaultAnalyzer\ 

-C UTF-8 


获取 测试 集 : 


mahout 
org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups\ 

- p$DATA_HOME/20news - bydate-test\ 

-O$DATA_HOME/bayes-test-input\ 


-a org.apache.mahout.vectorizer.DefaultAnalyzer\ 
-c UTF-8 


在 数据 获取 完成 之 后 ， 通 过 “hadoop fs-put”" 命 令 将 数据 上 传 到 
HDFS， 然 后 使 用 下 列 命令 训练 Bayes 分 类 希 : 


mahout trainclassifier\ 


-i/user/hadoop/20news/bayes-train-input\ 
-o/user/hadoop/20news/newsmodel\ 

-type cbayes\ 

-ng 2\ 

-source hdfs 


该 命令 将 会 在 Hadoop 上 运行 四 个 MapReduce 作 业 。 在 命令 执行 的 
过 程 中 ， 可 以 打开 浏 贤 絮 ， 在 http: //localhost: 50030/jobtracker.jsp E 
监视 这 些 作业 的 运行 状态 。 


运行 下 面 的 命令 测试 Bayes 分 类 絮 : 


mahout testclassifier\ 
-m/user/hadoop/20news/newsmodel\ 
-d/user/hadoop/20news/bayes-test-input\ 
-type cbayes\ 

-ng 2\ 

-source hdfs\ 

-method mapreduce 


关于 trainclassifier 和 testclassifier 命 令 参 数 ， 这 里 不 再 详细 介绍 ， 大 


家 可 以 通过 “mahout[command]-h” 命 令 来 查看 。 


这 就 是 Mahout 目 带 的 Bayes 分 类 算法 的 示例 程序 。 如 果 大 家 想 要 深 
入 了 解 Mahout 的 分 类 算法 ， 可 以 目 行 阅读 Mahout Core API 0.7 来 了 解 已 
经 实现 的 功能 。 


13.6 ”Mahout 应 用 : 建立 一 个 推荐 引擎 


13.6.1 推荐 引擎 简介 


每 天 人 们 都 会 产生 各 种 各 样 的 想法 : ET A 
事 、 不 关心 某 个 东西 。 在 人 们 盈 无 察觉 的 情况 下 ， 这 些 事情 在 悄然 发 
生 。 一 个 正在 播放 的 流行 歌曲 可 会 引起 你 的 注意 ， 也 可 能 对 你 没有 任 
何 影响 。 歌 曲 引 起 你 的 注意 可 能 是 因为 它 很 好 听 或 者 它 很 让 人 厌烦 。 
同样 的 事情 也 会 发 生 在 其 他 的 事情 上 。 这 就是 人 们 的 喜好 。 


每 个 人 都 有 着 不 同 的 喜好 ， 但 是 这 些 喜 好 会 遵循 着 类 似 的 规律 。 
对 于 一 个 人 来 说 ， 如 果 一 个 新 的 事物 与 他 之 前 喜欢 的 事物 相似 ， 那 么 
他 很 有 可 能 也 会 喜欢 这 个 痢 事 物 。 如 采 一 个 外 国人 喜欢 吃 中 国 饺子 ， 
那么 他 很 有 可 能 会 喜欢 中 国 的 包子 。 因 为 它们 都 是 市 馅 的 面食 。 此 
外 ， 如 采 你 的 朋友 喜欢 周国平 的 散文 ， 那么 你 也 很 有 可 能 会 喜欢 周 
平 的 散文 。 因 为 朋友 之 间 会 有 一 些 共同 的 喜好 。 


在 日 单 生活 中 ， 预 测 人 们 的 喜好 二 没有 问题 的 。 假 设 有 两 个 人 A 
和 B。 对 于 B 是 否 喜 欢 电 影 《 指 环 王 II》 的 问题 ， 大 多 数 人 只 能 靠 狂 
测 。 但 如 末 A 知 道 B 喜 欢 《指环 王 I》 和 《指环 王 H》， 那 么 可 以 推测 B 


喜欢 《指环 王 III》“。 如 采 B 对 指环 王 系 列 电影 一 点 也 不 了 解 ，A 基 本 可 
UIE, BEDRE (GJE END HY ° 
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获得 的 各 种 信息 ， 对 用 户 的 购买 行为 做 出 预测 ， 从 而 达到 相应 目的 。 
现实 生活 中 ， 人 们 都 经 历 过 网 站 回 客 户 推荐 产品 ， 这 些 推荐 都 是 基于 
客户 浏览 信息 的 推荐 。 网 站 试 痢 推断 客户 的 喜好 ， 以 此 来 癌 客 户 推荐 
他 们 可 能 会 喜欢 的 产品 


续 越 网 使 用 了 推荐 引擎 技术 ， 在 购买 一 本 书 的 同时 ， 网 站 会 利用 
顾客 的 购买 习惯 和 书籍 之 间 的 关系 为 顾客 推荐 他 们 可 能 会 感 兴趣 的 书 
籍 或 首 像 制品 。 例如 ， 当 某 一 名 顾客 想 要 购买 《 云 计算 》 这 本 书 时 ， 
在 页 面 的 下 方 会 出 现 购 买 此 商品 的 顾客 同时 购买 的 书籍 。 这 样 顾 客 整 
可 能 会 顺便 天 一 本 相关 的 书 。 推 荐 引擎 技术 不 仅 可 以 帮助 顾客 更 容易 
地 发 现 目 己 想 要 的 商品 ， 而 且 可 以 帮助 商家 售卖 更 多 的 商品 。 社交 网 
站 人 人 网 利用 推荐 引擎 技术 ， 向 用 户 推 荐 一 些 可 能 是 用 户 朋 友 的 人 。 
对 于 最 有 可 能 是 朋友 的 人 ， 人 人 网 会 目 动 把 这 些 最 可 能 是 该 用 户 朋 友 
的 人 放 在 最 前 方 ， 以 供用 户 选 择 。 推 荐 引擎 技术 已 经 悄然 地 影响 着 人 
们 的 生活 ， 只 是 人 们 可 能 并 没有 注意 它 


13.6.2 ”使 用 Taste 构 建 一 个 简单 的 推荐 引擎 


Taste 是 Apache Mahout 提 供 的 一 个 协同 过 滤 算 法 的 高 效 实现 ， 它 是 
一 个 Java 实 现 的 可 扩展 的 、 高 效 的 推荐 引擎 。Taste 既 实现 了 最 基本 的 
基于 用 户 的 和 基于 内 容 的 推荐 算法 ， 同 时 也 提供 了 扩展 接口 ， 使 用 户 
可 以 方便 地 定义 和 实现 目 己 的 推荐 算法 。 同 时 ，Taste 不 仅仅 适用 于 
Java 应 用 程序 ， 它 还 可 以 作为 内 部 服务 右 的 一 个 组 件 以 HTTP 和 Web 
Service 的 形式 向 外 界 提供 推荐 的 逻辑 。Taste 的 设计 使 它 能 满足 企业 对 
推荐 引擎 在 性 能 、 灵 活性 和 可 扩展 性 等 方面 的 要 求 。 


Taste 主 要 包括 以 下 5 个 组 件 ， 具 体 如 图 13-6 所 示 。 


DataModel: DataModel 是 用 户 喜好 信息 的 抽象 接口 ， 它 的 具体 实 
现 文 持 从 任意 类 型 的 数据 源 抽取 用 户 喜好 信息 。Taste 默 认 提供 
JDBCDataModel 和 FileDataModel， 分 别 文 持 从 数据 库 和 文件 中 读 取 用 
户 的 喜好 信息 。 


UserSimilarity 和 ItemSimilarity: UserSimilarity 用 于 定义 两 个 用 户 
间 的 相似 度 ， 它 是 基于 协同 过 滤 的 推荐 引 警 的 核心 部 分 ， 可 以 用 来 计 
算 用 户 的 “邻居 ”， 这 里 的 “邻居 ? 指 与 当前 用 户 相似 的 用 户 。 
ItemSimilarity 用 来 计算 内 容 之 间 的 相似 度 。 


UserNeighborhood: UserNeighborhood 用 于 基于 用 户 相 似 度 的 推荐 
方法 中 ， 推 荐 的 内 容 是 通过 找到 与 当前 用 户 喜 好 相似 的 “邻居 用 户 ” 的 
方式 产生 的 。UserNeighborhood 定 义 了 确定 邻居 用 户 的 方法 ， 具 体 实 
现 一 般 是 基于 UserSimilarity 计 算得 到 的 。 


Recommender: Recommender 是 推荐 引擎 的 抽象 接口 ，Taste 中 的 
核心 组 件 。 在 程序 中 ， 为 它 提供 一 个 DataModel， 它 可 以 计算 出 对 不 同 
用 户 的 推荐 内 容 。 在 实际 应 用 中 ， 主 要 使 用 它 的 实现 类 
GenericUserBasedRecommender 或 GenericItemBasedRecommender， 分 


别 实现 基于 用 户 相 似 度 的 推荐 引擎 或 者 基于 内 容 的 推荐 引擎 。 


| 
救 据 存 信 数据 存储 层 


图 13-6 _ Taste 的 主要 组 件 图 


安装 Taste 主 要 包括 以 下 三 部 分 内 容 : 


如 果 需 要 build 源 代码 或 例子 ， 则 需要 Apache Ant 1.5+ Bk Apache 
Maven 2.0.10+ ° 


Taste 应 用 程序 需要 Servlet 2.3+ 容 器 ， 例 如 Jakarta Tomcat ° 
Taste 中 的 MySQLJDBCDataModel 实 现 需要 MySQL 4.x+ 数 据 库 。 
安装 Taste 并 运行 Demo 的 步 又 如 下 : 


1) 从 SVN 或 下 载 压缩 包 中 得 到 Apache Mahout 的 发 布 版 本 。 


2) 从 Grouplens 网 站 http: www.grouplens.org/mode/12 下 载 数据 


源 : “1 Million MovieLens Dataset” ° 


3) 解压 数据 源 压 缩 包 ， 将 movie.dat 和 ratings.dat 复 制 到 Mahout 安 
淡 目 录 下 的 taste- 
web/src/main/resources/org/apache/mahout/cf/taste/example/grouplens H 3%% 


Fo 


4) 回 到 core 目 录 下 ， 运 行 “mvn install”, +Mahout core 安 装 在 本 
地 库 中 。 


5) 进入 taste-web， 复 制 ../examples/targetgrouplens.jar 到 taste- 


web/lib H ¥ ° 


6) 编辑 taste-web/recommenderproperties， 将 recommender.class 设 
EN 


org.apache.mahout.cf.taste.example.grouplens.GroupLensRecommender ° 


7) 在 Mahout 的 安装 目录 下 ， 运 行 “mvn package” ° 


8) 运行 “mvn jetty: run-war”， 这 里 需要 将 Maven 的 最 大 内 存 设置 
为 1024MB， 即 : MAVEN_OPTS=-Xmx1024MB。 如果 需 要 在 Tomcat 下 
运行 ， 可 以 在 执行 “mvn package” 后 ， 将 taste-web/target 目 录 下 生成 的 
war 包 复制 到 Tomcat 的 webapp 下， 同时 也 需要 将 Java 的 最 大 内 存 设置 为 
1024MB, JAVA_OPTS=-Xmx1024MB， 然 后 启动 Tomcat ° 


9) 访问 http: //localhost: 8080/[your_app]/RecommenderServlet? 
userID=1， 得 到 系统 编号 为 1 的 用 户 推荐 内 容 。 参 看 图 13-7， 其 中 每 一 
行 的 第 一 项 是 推荐 引擎 预测 的 评分 ， 第 二 项 是 电影 的 编号 。 


Mozilla Firefox 
THE WME) BAW) MRIS) PRB) IR) MBH! 
c A EJ Petpullocalhost: B06 Recomenendersentet?useriD=1 


fa) httpyfocalhost...erviet?useiD=1 $È 
7.32173 557 


4 .8333335 
4 .8279667 


4.764953 


13-7 Taste Demo 运 行 结 果 界 面 


10) 同时 ，Taste 还 提供 Web 服 务 访问 接口 ， 通 过 以 下 URL 访 问 : 


http: //localhost: 8080/[your_app]/RecommenderService.jws ° 


11) WSDL 文 件 (http: //localhost: 
8080/[your_app]/RecommenderService.jws?wsdl) 也 可 以 通过 简单 的 
HTTP 请 求 调 用 这 个 Web 服 务 : http: //localhost: 
8080/[your_app]/Recommender-Service.jws?method=recommend& 


userID=1& howMany=10 


13.6.3 ta Hop PAS RSET PY ES AR A 


下 


传统 的 推荐 引擎 算法 多 在 单机 上 实现 ， 它 们 只 能 处 理 一 定量 的 数 
据 。 如 采 数 据 量 达 到 一 定 的 规模 ， 传 统 的 推荐 引擎 算法 束 会 出 现 各 种 


问题 。 


在 传统 的 推荐 算法 中 ， 算 法 会 将 用 户 喜 欢 的 产品 抽象 成 三 个 具体 
的 数值 ， 用 户 编 号 、 产 品 编号 和 喜爱 值 。 这 里 的 言 爱 值 表示 用 户 对 产 
品 的 喜爱 程度 ， 它 可 以 用 一 个 具体 数值 来 表示 。 例 如 ， 可 以 使 用 1 到 5 
来 表示 喜欢 的 程度 : 1 表示 非常 不 喜欢 ;2 表示 不 喜欢 ; 3 表示 没有 任何 
感觉 ，4 表 示 喜 欢 ; 5 表示 非常 喜欢 。 也 可 以 从 1 到 5 都 表示 喜欢 ， 数 值 
越 大 代表 越 喜 欢 。 然 后 通过 计算 产品 之 间 的 相似 性 来 癌 用 户 推 荐 产 


= 
HH ° 


分 布 式 系统 没有 使 用 这 种 方法 。 分 布 式 系统 下 的 推荐 算法 主要 包 
括 以 下 几 部 分 : 


计算 表示 产品 相似 性 的 矩阵 。 


计算 表示 用 户 喜好 的 向 量 。 


计算 矩阵 与 向 量 的 乘积 ， 为 用 户 推荐 产品 。 


在 开始 介绍 推荐 算法 之 前 ， 首 先 建立 一 组 数据 ， 如 表 13-10 所 示 。 
在 这 组 数据 中 ， 每 条 记录 包含 三 个 信息 : 用 户 编 号 、 产 品 编导 、 用户 
对 产品 的 喜爱 值 。 


表 13-10 ArPBLALR 


EE 


产品 编 号 w Tif 


用 户 编号 产品 编号 


| a 
i ie es 8 
| | 
| w f o o o f e f 
Oe g a f o o g 
| | 
EL ET EE E E 
UL EE | L 
| E | 机 
a EE E E EL 
-E 1 E lo l i 


表 13-10 显 示 了 5 名 顾客 的 购买 历史 。 下 面 来 介绍 一 种 方法 : 使 用 
共生 和 矩阵 来 表示 产品 的 相似 性 。 在 这 里 ， 产 品 的 相似 性 是 指 产品 出 现 
在 一 起 的 次 数 。 例 如 从 表 13-10 中 可 以 看 出 产品 101 和 产品 102 一 共 出 现 
过 三 次 ,分别 是 在 用 户 1、 用 户 2、 用 户 5 的 物品 清单 上 。 那 么 在 共生 甜 
阵 中 101 和 102 对 应 的 元 素 值 就 应 该 为 3。 经 过 统计 表 13-10 中 的 5 个 用 户 
的 购物 清单 可 以 使 用 表 13-11 的 矩阵 来 表示 。 


表 13-11 HHH 
101 N/A 3 2 
102 
103 
104 
105 


106 


107 


表 13-11 中 的 行 和 列 都 是 产品 的 编号 。 观 察 可 知 ， 该 矩阵 是 一 个 对 
称 和 矩阵 。 在 计算 过 程 中 可 以 使 用 一 些 特殊 技术 对 和 矩阵 进行 处 理 ， 使 得 
程序 的 效率 更 高 。 原 因 是 产品 104 和 产品 105 出 现 的 次 数 与 产品 105 和 产 
品 104 出 现 的 次 数 必然 是 相同 的 。 在 共生 和 矩阵 中 对 角 线 的 元 素 是 没有 意 
义 的 。 计 算 时 可 以 使 用 0 进行 代替 。 


除了 共生 和 矩阵 外 ， 还 需要 一 个 表示 用 户 喜 好 的 向 量 。 在 该 向 量 
中 ， 对 于 用 户 购买 过 的 产品 必然 会 有 一 个 表示 喜好 的 数值 ， 对 于 用 户 
没有 购买 的 产品 ， 选 择 用 数字 0 来 表示 该 用 户 对 该 产品 没有 任何 喜好 。 
例如 对 于 用 户 4 而 言 ， 他 的 向 量 就 应 该 是 (5.0,，0，3.0，4.5，0，4.0， 
0) 。 通 过 计算 可 以 得 到 所 有 用 户 的 喜爱 值 ， 如 表 13-12 所 示 。 


表 13-12 用 户 喜 爱 值 表 


实 该 表 也 是 一 个 矩阵 : MRENE aS, IEE 
， 行 列 对 应 的 元 聚 值 为 用 户 对 产品 的 喜爱 值 。 通 过 观察 可 以 发 现 ， 
和 窍 阵 中 包含 很 多 0， 这 种 矩阵 可 以 称 为 稀 朴 矩 孟 。 对 于 稀 芒 窍 阵 ， 同 样 
可 以 采用 一 些 技术 手段 使 程序 效率 更 高 。 


既然 已 表示 了 产品 的 相似 性 ， 也 表示 了 用 户 对 产品 的 喜爱 ， 剩 下 
的 就 是 如 何 计算 推荐 的 产品 了 。 其 实 这 很 简单 ， 只 要 将 共生 和 抢 阵 与 用 
户 的 列 回 量 相 乘 得 到 一 个 新 的 列 回 量 即 可 。 在 新 的 列 同 量 中 ， 所 有 可 
以 推荐 产品 对 应 的 值 最 大 ， 束 是 计算 得 到 的 推荐 产品 


以 向 用 户 4 推荐 产品 为 例 ， 如 表 13-13 所 示 。 


表 13-13 用 户 4 的 推荐 结果 


从 结果 可 以 看 出 ， 用 户 最 喜欢 产品 103， 但 是 103 已 经 买 过 ， 因 此 
无 须 推荐 该 产品 。 同 理 101、104、106 也 都 可 以 不 推荐 。 在 可 以 推荐 的 
产品 102、105、107 中 ， 选 择 推荐 产品 102。 因 为 102 的 计算 机 结 末 是 三 
者 之 中 最 大 的 。 


推荐 结果 已 经 有 了 ， 下 面 来 分 析 这 个 结果 是 否 合理 。 在 所 有 可 以 
推荐 的 产品 中 ， 推 荐 引擎 选择 了 计算 结果 最 大 的 产品 。 为 什么 计算 结 
果 最 大 的 产品 就 是 最 合理 的 推荐 产品 呢 ? 


回想 整个 计算 过 程 。 在 计算 结果 中 处 在 第 2 行 的 计算 结果 37 是 矩阵 
第 2 行 元 素 和 用 户 4 的 列 向 量 的 乘积 ，3x (5.0) +0x0+3x3+2x 
(4.5) +1x0+1x (4.0) +0x0=37。 和 矩阵 中 的 第 2 行 表 示 的 是 所 有 产品 和 
产品 102 同 时 出 现 的 次 数 。 如 果 用 户 对 某 个 产品 非常 喜欢 ， 而 这 个 产品 
又 和 产品 102 同 时 出 现 的 次 数 很 多 ， 那 么 乘积 对 计算 结果 的 影响 就 会 较 
大 。 这 刚好 就 是 推荐 引擎 要 达到 的 目的 ， 用 户 非常 喜欢 的 产品 和 102 很 
相似 ， 推 荐 引擎 可 向 用 户 推荐 该 产品 。 


对 于 大 量 数据 ， 计 算 结果 会 非常 大 。 但 是 没有 关系 ， 推 荐 引擎 天 
注 的 是 所 有 结 采 的 大 小 关系 ， 而 不 是 具体 的 数值 。 因 为 最 终 癌 用 户 推 
存 的 是 可 以 推荐 产品 中 计算 结果 最 大 的 。 在 计算 的 过 程 中 ， 对 于 不 是 
最 大 的 计算 结 采 以 及 用 户 已 经 购买 过 的 产品 ， 推 荐 引擎 无 须 推荐 ， 因 
此 也 不 必 计 算 它们 的 结 


通过 分 析 可 知 ， 推 荐 引 敬 计算 出 的 推荐 结果 是 合理 的 。 但 为 什么 

适合 大 规模 的 数据 呢 ? 下 面 来 说 明 这 个 问题 。 在 计算 共生 和 矩阵 的 时 
候 ， 每 次 只 需 考 虑 一 个 向 量 ; 在 计算 用 户 向 量 的 时 候 只 需 考 碟 该 用 户 
的 喜好 ; 在 计算 推荐 结果 的 时 候 只 需 考 虑 矩阵 中 的 一 列 值 。 这 都 表 
明 ， 这 个 方法 可 以 使 用 MapReduce 编 程 模式 。 


13.7 “本章 小 结 


本 革 对 Mahout 做 了 人 简要 介绍 ， 主 要 有 Mahout 的 详细 安装 过 程 ， 
Mahout API 的 介绍 ，Mahout 中 已 经 实现 的 频繁 模式 挖 抉 算 法 、 分 类 算 
1K RRRA, HG HT Kmeans FR GIZA T STAR o LUN TR 
类 算法 中 的 数据 表示 。 在 推荐 引擎 部 分 ， 着 重 从 思想 上 介绍 了 如 何在 
Hadoop 云 平台 下 实现 分 布 式 的 推荐 系统 。Mahout 虽 然 经 过 了 几 年 的 发 
展 ， 但 还 是 有 很 多 地 方 值得 去 探索 。 如 有 果 读 者 有 兴趣 加 入 其 中 ， 可 以 
访问 Mahout 的 官网 ， 与 世界 各 地 的 开发 者 共同 推动 Mahout 的 发 展 。 
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14.1 Pig 简介 


作为 Apache 项 目的 一 个 子 项 目 ，Pig 提 供 了 一 个 支持 大 规模 数据 分 
析 的 平台 。Pig 包 括 用 来 描述 数据 分 析 程 序 的 高 级 程序 语言 ， 以 及 对 这 
些 程序 进行 评估 的 基础 结构 。Pig 突 出 的 特点 就 是 它 的 结构 经 得 起 大 量 
并 行 任务 的 检验 ， 这 使 得 它 能 够 处 理 大 规模 数据 集 。 


目前 ，Pig 的 基础 结构 层 包 括 一 个 产生 MapReduce 程 序 的 编译 器 。 
Pig 的 语言 层 包 括 一 个 叫做 Pig Latin 的 文本 语言 ， 它 具有 以 下 主要 特 
性 : 


易于 编程 。 实 现 和 侧 单 的 和 高 度 并 行 的 数据 分 析 任 务 非常 容易 。 由 
相互 关联 的 数据 转换 实例 所 组 成 的 复杂 任务 被 明确 地 编码 为 数据 流 ， 
这 使 他 们 的 编写 更 加 容易 ， 同 时 也 更 容易 理解 和 维护 。 


目 动 优化 。 任 务 编码 的 方式 允许 系统 目 动 去 优化 执行 过 程 ， 从 而 
使 用 户 能 够 专注 于 语义 ， 而 非 效 率 。 


可 扩展 性 。 用 户 可 以 轻松 编写 目 己 的 轴 数 来 进行 特殊 用 途 的 处 
理 。 


14.2 Pig 的 安装 和 配置 


14.2.1 Pig 的 安装 条 件 


1.Hadoop 1.0.1 


Pig 有 两 种 运行 模式 : Local 模 式 和 MapReduce 模 式 。 如 果 需 要 让 作 
业 在 分 布 式 环境 下 运行 ， 则 需要 安装 Hadoop， 否 则 用 户 可 以 选择 不 安 
装 。 男 外 ， 当 前 Hadoop 最 新 的 版 本 为 1.0.1， 当 然 用 户 也 可 以 选择 安装 
其 他 版 本 ， 不 过 这 里 建议 安装 最 新 的 Hadoop 版 本 。 因 为 新 的 版 本 修正 
了 以 前 版 本 中 的 一 些 错误 ， 并 且 添 加 了 新 的 特性 由 。 


2.Java 1.6 


建议 安装 Java 1.6 以 上 的 版 本 。Java 环 境 对 于 Pig 来 说 是 必需 的 〈 推 
荐 从 SUN 官 方 网 站 下 载 ) 。 


当下 载 安装 完毕 Java 后 ， 我 们 还 需要 对 Java 环 境 变量 进行 设置 ， 
将 JAVA_HOME 指 向 Java 的 安装 位 置 。 
如 果 用 户 使 用 的 是 Linux 操 作 系统 ， 那 么 以 上 条 件 就 足够 了 。 如 果 


用 户 使 用 的 是 windows 操 作 系统 ， 那 么 除 此 之 外 ， 用 户 还 需要 安 钱 
Cygwin 和 Perl 包 。 本 章 后 面 的 案例 将 以 Linux 操 作 系统 为 例 进行 讲解 。 


[1] 关于 Hadoop 的 具体 信息 见 相 关 章 方 。 


14.2.2 Pig 的 下 载 、 安 装 和 配置 


当前 Pig 最 新 版 本 为 0.10.0， 除 此 之 外 ，Pig 还 有 其 他 版 本 ， 如 
0.9.2、0.8.1 两 个 版 本 ， 用 户 可 以 根据 需要 从 Apache 官 方 网 站 上 下 载 相 
应 的 版 本 。 本 书 使 用 最 新 版 的 Pig 0.10.0， 安 装 包 下 载 地 址 如 下 : 


http: //www.apache.org/dyn/closer .cgi/pig 


Pig 的 安装 包 下 载 完 成 后 ， 需 要 使 用 tar-xvf pig-*.*.*.tar.gz 命 令 将 其 
解压 。 我 们 可 以 将 Pig 放 在 系统 中 的 任意 位 置 上 ， 并 且 只 需要 配置 相应 
的 环境 变量 束 可 以 使 用 Pig 了。 不 过 我 们 建议 将 Pig 放 在 Hadoop 目 杂 
下 ,方便 以 后 的 操作 。 


解压 完成 后 ， 需 要 设置 Pig 相 应 的 环境 变量 。 环 境 变量 有 多 种 设置 
方法 ， 用 户 可 以 根据 目 己 的 需要 进行 选择 。 这 里 我 们 选择 对 profile 文 
件 进 行 修改 ， 来 设置 Pig 相 应 的 环境 变量 。 打 开 “/etc/profile” 文 件 ， 插 
入 下 面 的 一 条 语句 ， 保 存 关 闭 文 件 后 需要 重启 系统 以 使 环境 变量 设置 
cE 


export PIG_HOME=/<path-to-pigDir > 
export PATH=$PIG_HOME/bin: $PIG_HOME/conf: $PATH 


当 环境 变量 设置 生效 后 ， 我 们 可 以 通过 “pig-help” 命 令 来 查看 Pig 
是 否 安 闭 成 功 。Pig 安 装 成 功 后 会 出 现 如 下 所 示 的 提示 : 


hadoop@master: ~/hadoop-1.0.1/pig-0.10.0$pig-help 

Apache Pig version 0.10.0 (r1328203) 

compiled Apr 19 2012, 22: 54: 12 

USAGE: Pig[options][-]: Run interactively in grunt shell. 

Pig[options] -e[xecute]cmd[cmd.....]: Run cmd (s) 

Pigi[options][-f[ile]]file: Run cmds found in file. 

options include: 

-4, -log4jconf-Log4j configuration file, overrides log conf 

-b, -brief-Brief logging (no timestamps) 

-c, -check-Syntax check 

-d, -debug-Debug level, INFO is default 

-e, -execute-Commands to execute (within quotes) 

-f, -file-Path to the script to execute 

-g, -embedded-ScriptEngine classname or keyword for the 
ScriptEngine 


-h, -help-Display this message.You can specify topic to get help 


for that topic. 


properties is the only topic currently supported: -h properties. 


-i, -version-Display version information 

-1, -logfile-Path to client side log file; default is current 
working directory. 

-m, -param_file-Path to the parameter file 

-p, -param-Key value pair of the form param=val 

-r, -dryrun-Produces script with substituted parameters.Script 
is not executed. 

-t, -optimizer_off-Turn optimizations off.The following values 
are supported: 

SplitFilter-Split filter conditions 

PushUpFilter-Filter as early as possible 

MergeFilter-Merge filter conditions 

PushDownForeachFlatten-Join or explode as late as possible 

LimitOptimizer-Limit as early as possible 

ColumnMapKeyPrune-Remove unused data 

AddForEach-Add ForEach to remove unneeded columns 

MergeForEach-Merge adjacent ForEach 

GroupByConstParallelSetter-Force parallel 1 for"group 
all"statement 

All-Disable all optimizations 

All optimizations listed here are enabled by 
default.Optimization values 

are case insensitive. 


-v, -verbose-Print all error messages to screen 

-w, -warning-Turn warning logging on; also turns warning 
aggregation off 

-Xx, -exectype-Set execution mode: local|mapreduce, default is 
mapreduce. 

-F, -stop_on_failure-Aborts execution on the first failed job; 
default is off 

-M, -no_multiquery-Turn multiquery optimization off; default is 
on 

-P, -propertyFile-Path to property file 


14.2.3 “Pig 运行 模式 


Pig 有 两 种 运行 模式 : Local 模 式 和 MapReduce 模 式 。 当 Pig 在 Local 
模式 运行 时 ， 它 将 只 访问 本 地 一 台 主 机 ， 当 Pig 在 MapReduce 模 式 运 行 
时 ， 它 将 访问 一 个 Hadoop 集 群 和 HDFS 的 安装 位 置 。 这 时 ，Pig 将 自动 
地 对 这 个 集群 进行 分 配 和 回收 。 因 为 Pig 系 统 可 以 自动 对 MapReduce 程 
序 进行 优化 ， 所 以 当 用 户 使 用 Pig Latin 语 言 进 行 编程 的 时 候 ， 不 必 关 
心 程序 运行 的 效率 ，Pig 系 统 将 会 自动 对 程序 进行 优化 。 这 样 能 够 大 量 
节省 用 户 编程 的 时 间 。 


下 面 我 们 站 先 介 绍 Pig 在 Local 模 式 下 的 运行 方式 。Pig 的 Local 模 式 
适用 于 用 户 对 程序 进行 调试 ， 因 为 Local 模 式 下 的 Pig 将 只 访问 本 地 一 
台 主 机 ， 它 可 以 在 短 时 间 内 处 理 少量 的 数据 ， 并 且 用 户 不 必 关 心 
Hadoop 系 统 对 整个 集群 的 控制 ， 这 样 既 能 让 用 户 使 用 Pig 的 功能 ， 又 不 
至 于 在 集群 的 管理 上 花费 太 多 时 间 。 


Pig 的 Local 模 式 和 MapReduce 模 式 都 有 三 种 运行 方式 ， 分 别 为 : 
Grunt Shell 方 式 、 脚 本 文件 方式 和 髓 入 式 程序 方式 。 下 面 我 们 将 对 其 


HT-a 


1.Local 模 式 


(1) Grunt Shell77 zt 


用 户 使 用 Grunt Shell 方 式 时 ， 需 要 首先 使 用 命令 开局 Pig 的 Grunt 
Shell， 只 需 在 Linux 终 端 中 输入 如 下 命令 并 执行 即 可 : 


$pig-x local 


这 样 Pig 将 进入 Grunt Shell 的 Local 模 式 ， 如 果 直 接 输 入 “pig” 命 令 ， 
Pig 将 首先 检测 Pig 的 环境 变量 设置 ， 然 后 进入 相应 的 模式 。 如 果 没 有 
设置 MapReduce 环 境 变量 ，Pig 将 直接 进入 Local 模 式 。 图 14-1 为 开启 
Grunt Shell 的 结果 。 


14-1 Local 模 式 下 开启 Grunt Shell 


Grunt Shell 和 Windows 中 的 Dos 窗 口 非常 类 似 ， 这 里 用 户 可 以 一 条 
一 条 地 输入 命令 对 数据 进行 操作 。 


(2) 脚本 文件 方式 


使 用 脚本 文件 作为 批 处 理 作业 来 运行 Pig 命 令 ， 它 实际 上 就 是 第 一 
种 运行 方式 运行 脚本 中 命令 的 集合 ， 使 用 如 下 命令 可 以 在 本 地 模式 下 
运行 Pig 脚 本 : 


$pig-x local script.pig 


其 中 ，“script.pig” 对 应 的 是 Pig 脚 本 ， 用 户 在 这 里 需要 正确 指定 Pig 
脚本 的 位 置 ， 否 则 ， 系 统 将 不 能 识别 。 例 如 ，Pig 脚 本 放 
在 “/root/pigTmp” 目 录 下 ， 那 么 这 里 束 要 写成 </root/pigTmp/script.pig”。 
用 户 在 使 用 的 时 候 需 要 注意 Pig 给 出 的 一 些 提示 ， 充 分 利用 这 些 提示 能 
够 帮助 用 户 更 好 地 使 用 Pig 进 行 相关 的 操作 [1 。 


(3) RATHER AT 


BATA LE Pigs Sa A BI Bate SP, FP ASAT IR RATE 
程序 。 和 运行 普通 的 Java 程 序 相同 ， 这 里 需要 书写 特定 的 Java 程 序 ， 
并 且 将 其 编译 生成 对 应 的 class 文 件 或 package 包 ， 然 后 再 调用 main 函 数 
运行 程序 。 


用 户 可 以 使 用 下 面 的 命令 对 Java 源 文件 进行 编译 : 


$javac-cp pig-*.*.*-core.jar local.java 


这 里 “pig-*.*.*-core.jar” 放 在 Pig 安 装 目录 下 ，“local.java” 为 用 户 编 
写 的 Java 源 文件 ， 并 且 “pig-*.*.*-core.jar” 和 “local.java” 需 要 用 户 正确 地 
指定 相应 的 位 置 。 例 如 ， 我 们 的 “pig-*.*.*-core.jar”* 文 件 放 
在 “/roothadoop-0.20.2/ 目 孙 下 , “localjava” 文 件 放 在 “rootpigTmp” 目 
录 下 ， 那 么 这 一 条 命令 我 们 应 该 写成 : 


$javac-cp/root/hadoop-0.20.2/pig-0.20.2- 
core. jar/root/pigTmp/local.java 


当 编 译 完成 后 ，Java 会 生成 “local.class” 文 件 ， 然 后 用 户 可 以 通过 
如 下 命令 调用 执行 此 文件 。 


$java-cp pig-*.*.*-core.jar: .local 


2.MapReducetiz xt, 


Pig 需 要 把 真正 的 查询 转换 成 相应 的 MapReduce 作 业 ， 并 提交 到 
Hadoop 集 群 去 运行 〈 集 群 可 以 是 真实 的 分 布 ， 也 可 以 是 伪 分 布 ) 。 要 
想 Pig 能 识别 Hadoop， 用 户 需 要 告诉 Pig 要 连接 的 Hadoop 的 安装 目录 。 
我 们 只 需要 设置 HADOOP_HOME 环 境 变 量 : 


export HADOOP_HOME=/path/to/hadoop 


当 设置 完毕 并 且 生 效 之 后 ， 用 户 可 以 输入 “pig-x mapreduce” at > 
进行 测试 ， 如 果 能 够 看 到 Pig 连接 Hadoop 的 NameNode 和 JobTrakcer 的 相 
关 信 息 ， 则 表明 配置 成 功 ， 用 户 就 可 以 随心 所 欲 地 使 用 MapReduce 模 
式 来 进行 相关 的 Pig 操 作 了 。 


图 14-2 为 MapReduce 配 置 成 功 后 的 提示 信息 ， 从 图 中 可 以 看 到 Pig 
连接 Hadoop 的 详细 信息 。 


14-2 MapReduce 配 置 成 功 的 提示 信息 


配置 成 功 之 后 ， 下 面 我 们 将 针对 Pig 的 MapReduce 模 式 ， 说 明 如 何 
在 此 模式 下 对 Grunt Shel] 方 式 、 脚 本 文件 方式 和 磐 入 式 程序 方式 进行 
操作 。 它 们 和 Local 模 式 下 的 操作 几乎 相同 ， 只 不 过 需要 将 相应 的 参数 
指明 为 MapReduce 模 式 。 


(1) Grunt Shell 方 式 


用 户 在 Linux 终 端 下 输入 如 下 命令 ， 进 入 Grunt Shell 的 MapReduce 
模式 : 


$pig-x mapreduce 


(2) 脚本 文件 方式 
用 户 可 以 使 用 如 下 命令 在 MapReduce 模 式 下 运行 Pig 脚 本 文件 : 


$pig-x mapreduce script.pig 


(3) PATCH 


AlLocal#ext4H lh], FEMapReducet IN BiB {Tt ERA SURE? [el i 
经 过 编译 和 执行 两 个 步骤 。 用 户 可 以 使 用 如 下 两 条 命令 ， 完 成 相应 的 
TRIE 。 


javac-cp pig-0.10.0-core.jar mapreduce.java 
java-cp pig-0.10.0-core.jar: .mapreduce 


至 此 ，Pig 系 统 的 两 个 运行 模式 及 其 分 别 对 应 的 三 个 运行 方式 束 讲 
述 完 毕 了 ，14.5 和 14.6 届 我 们 将 结合 实例 ， 对 其 做 更 深入 的 介绍 ， 在 这 
里 布 望 大 家 能 够 对 Pig 系 统 的 运行 模式 有 一 个 初步 的 印象 。 


[ 注意 : 这 里 script.pig 前 后 没有 3 引号 。 


14.3 Pig Latin 语 言 
14.3.1 Pig Latin 语 言 简介 


Pig Latin 语 言 和 传统 的 关系 数据 库 中 的 数据 库 操作 语言 非常 类 
似 。 但 是 Pig Latin 语 言 更 侧重 于 对 数据 的 查询 和 分 析 ， 而 不 是 对 数据 
进行 修改 和 删除 等 操作 。 另 外 ， 由 于 Pig Latin 可 以 在 Hadoop 的 分 布 式 
云 平台 上 运行 ， 它 的 这 个 特点 可 以 让 其 具有 其 他 数据 库 无 法 比拟 的 速 
度 优势 ， 能 够 在 短 时 间 内 处 理 海量 的 数据 。 例 如 ， 处 理 系 统 日 志文 
件 、 处 理 大 型 数据 库 文件 、 处 理 特定 Web 数 据 等 。 除 此 之 外 ， 我 们 在 
使 用 Pig Latin 语 言 编写 程序 的 时 候 ， 不 必 关 心 如 何 让 程序 能 够 更 好 地 
在 Hadoop 云 平台 上 运行 ， 因 为 这 些 任务 都 是 由 Pig 系 统 目 行 分 配 的 ， 不 
需要 程序 员 参 与 。 因 此 ， 程 序 员 只 需要 专注 于 程序 的 编写 即 可 ， 这 样 
大 大 减轻 了 程序 员 的 负担 。 


Pig Latin 是 这 样 一 个 操作 : 通过 对 关系 (relation) 进行 处 理 产 生 
另外 一 组 关系 出 。Pig Latin 语 言 在 书写 一 条 语句 的 时 候 能 够 跨越 多 
行 ， 但 是 必须 以 半角 的 分 号 来 结束 。Pig Latin 语 句 通 常 按照 下 面 的 流 
程 来 编写 : 


1) 通过 一 条 LOAD 语 句 从 文件 系统 中 读 取 数 据 ; 


2) 通过 一 系列 “转换 ”语句 对 数据 进行 处 理 ; 


3) 通过 一 条 STORE 语句 把 处 理 结果 输出 到 文件 系统 中 ， 或 者 使 
用 一 条 DUMP 语 句 把 处 理 结 采 输出 到 屏幕 上 。 


LOAD 和 STORE 语句 有 严格 的 语法 规定 ， 用 户 很 容易 就 能 掌握 ， 
关键 是 如 何 灵 活 使 用 “转换 ”语句 对 数据 进行 处 理 。 


Pig Latin 语 言 还 可 以 对 数据 进行 连接 操作 ， 在 14.6T 中 ， 我 们 将 通 
过 一 组 例子 ， 让 用 户 对 Pig Latin 语 言 的 特点 有 更 好 的 体会 。 


[1] 这 个 定义 适用 于 除 LOAD 和 STORE 之 外 的 所 有 操作 ，LOAD 和 
STORE 分 别 执行 从 文件 系统 读 取 和 写 入 的 操作 。 


14.3.2 Pig Latin 的 使 用 


一 节 我 们 着 重 讲 一 下 Pig Latin 可 以 用 在 哪些 方面 。 
1. 运 行 Pig Latin 
用 户 可 以 通过 多 种 方式 使 用 Pig Latin 语 句 ， 如 14.2.3 所 述 。 通 常 ， 
Pig 按 如 下 方式 执行 Pig Latin 语 句 : 
1) Pig 对 所 有 语句 的 语法 和 语义 进行 确认 ; 


2) 如 果 遇 到 DUMP 或 者 STORE 命令 ，Pig 将 顺序 执行 上 面 所 有 的 


TEA] ° 


在 下 面 的 示例 中 ，Pig 将 只 确认 LOAD 和 FOREACH 语 句 ， 但 不 执 


A=LOAD'Student'USING PigStorage (': ') AS (Sno: chararray, Sname: 
chararray, Ssex: 

chararray, Sage: int, Sdept: chararray) ; 

B=FOREACH A GENERATE Sname; 


在 下 面 的 示例 中 ，Pig 将 确认 并 执行 LOAD、FOREACH 和 DUMP 
eal: 


A=LOAD'Student'USING PigStorage (': ') AS (Sno: chararray, Sname: 
chararray, Ssex: C 


hararray, Sage: int, Sdept: chararray) ; 
B=FOREACH A GENERATE Sname; 
DUMP B; 


因为 Pig 的 一 些 命令 并 不 会 目 动 执行 ， 而 是 需要 通过 其 他 命令 来 触 
A, Hen ee, EHR SEMI, m 
征 在 最 后 的 一 个 触发 操作 的 调用 下 ， 连 续 地 一 次 性 地 执行 完毕 。 


2. 查 看 Pig Latin 的 运行 结果 


Pig Latin 包 括 一 些 用 来 查看 语句 运行 结果 的 操作 。 
1) 使 用 DUMP 操 作 把 操作 的 结果 显示 在 屏幕 上 ， 如 下 所 示 : 


DUMP alias; 


2) 使 用 STORE 操作 把 操作 的 结果 存储 在 文件 中 ， 如 下 所 示 : 
STORE alias INTO'directory'[USING function]; 

3.Pig Latin 的 调试 

Pig Latin 包 括 一 些 可 以 帮助 用 户 进行 调试 的 操作 。 

1) 使 用 DECSRIBE 操 作 查 看 关系 的 模式 ， 如 下 所 示 : 


DESCRIBE alias; 


2) 使 用 EXPLAIN 操 作 查 看 对 某 个 关系 进行 操作 的 逻辑 的 、 物 理 
的 或 者 MapReduce 的 执行 计划 ， 如 下 所 示 : 


EXPLAIN[-script pigscript][-out path][-brief][-dot][-param 
param_name= 
param_value][-param_file file_name]alias; 


3) 使 用 ILLUSTRATE 操 作对 Pig Latin 语 名 进行 单 步 执行 ， 如 下 所 


ILLUSTRATE alias; 


4. 注 释 在 Pig Latin 脚 本 中 的 使 用 


注释 殴 是 对 代码 的 解释 和 说 明 。 目 的 是 为 了 让 别人 和 目 己 很 容易 
看 懂 。 像 其 他 的 编程 语言 一 样 ，Pig Latin 脚 本 中 也 可 以 包含 注释 ， 下 
面 是 两 种 常用 的 注释 格式 : 


(1) 多 行 注释 : /*......*/ 
示例 : 


/* 

myscript.pig 

My script includes three simple Pig Latin Statements. 
*/ 


(2) 单行 注释 : -- 


示例 : 


A=LOAD'Student 'USING PigStorage (': ') ; -- 语 句 
B=FOREACH A GENERATE Sname; .-foreachiZ4 
DUMP B; --dump 语 句 


5. 大 小 写 相 关 性 


在 Pig Latin 中 ， 关 系 名 、 域 名 、 男 数 名 是 区 分 大 小 写 的 。 参 数 名 
和 所 有 Pig Latin 关 键 字 是 不 区 分 大 小 写 的 。 


请 注意 下 面 的 示例 : 

关系 名 A、B、C 等 是 区 分 大 小 写 的 ; 

域名 f1，f2、f3 等 是 区 分 大 小 写 的 ; 
函数 名 PigStorage、COUNT 等 是 区 分 大 小 写 的 ; 


关键 字 LOAD, USING, AS, GROUP, BY FOREACH, GENERATE, 
DUMP 等 是 不 区 分 大 小 写 的 ， 它 们 也 能 被 写成 load、using、as、 
group ` by ` foreach ` generate ` dump®f ° ÆFOREACHE AJF, KAB 
中 的 域 通过 位 置 来 访问 ， 如 下 所 示 : 


grunt >A=LOAD'data'USING PigStorage () AS (f1: int, f2: int, f3: 
int) 3 

grunt >B=GROUP A BY f1; 

grunt >C=FOREACH B GENERATE COUNT ($0) ; 

grunt >DUMP C; 


14.3.3 Pig Latin 的 数据 类 型 


1. 数 据 模 式 


Pig Latin 中 数据 的 组 织 形式 包括 : 关系 (relation) 、 包 (bag) ` 
元 组 (tuple) 和 域 (field) 。 


一 个 关系 可 以 按 如 下 方式 定义 : 

一 个 关系 就 是 一 个 包 (更 具体 地 说 ， 是 一 个 外 部 包 ) ; 
包 是 元 组 的 集合 ; 

元 组 是 域 的 有 序 集合 ; 

域 是 一 个 数据 块 。 


一 个 Pig 关 系 是 一 个 由 元 组 组 成 的 包 ，Pig 中 的 关系 和 关系 数据 库 中 
的 表 (table) 很 相似 ， 包 中 的 元 组 相当 于 表 中 的 行 。 但 是 和 关系 表 不 
同 的 是 ，Pig 中 不 需要 每 一 个 元 组 包含 相同 数目 或 者 相同 位 置 的 域 ( 同 
列 域 ) ， 也 不 需要 具有 相同 的 数据 类 型 。 


另外 ， 关 系 是 无 序 的 ， 这 就 意味 着 Pig 不 能 保证 元 组 按 特 定 的 顺序 
来 执行 。 


2. 数 据 类 型 


表 14-1 给 出 了 一 些 简 单数 据 类 型 的 描述 及 示例 。 限 于 篇 幅 我 们 不 再 
做 更 详细 的 介绍 ， 具 体内 容 大 家 可 以 在 使 用 中 慢 慢 体会 。 


R 14-1 Pig Latin 数据 类 型 


有 符号 32 fogs ty 

fH :10L 或 101 
ER LOL 
-10.5F 或 10.5f 或 10.Se2f X 10.5E2F 
Bas :10.5F or 1050.0F 


EA 数据 : 10.5 or 10.5c2 or 10.5E2 
double 64 位 浮 点 型 
54 SHEE re WR : 10.5 or 1050.0 


有 符号 64 位 整 型 


32 为 浮 点 型 


字符 数组 使 用 UTF-8 格式 进行 编码 | hello world 

$i KA (blob) 

有 序 的 字段 集 (19,2) 
复杂 数据 类 型 元 组 集合 1019,2) (19,2), (18.19) 


14.3.4 Pig Latin 关 键 字 


Pig Latin 语 言 有 很 多 关键 字 ， 但 是 我 们 不 可 能 一 一 给 大 家 介绍 。 在 
下 面 的 第 一 部 分 的 内 容 中 ， 我 们 给 大 家 介绍 Pig Latin 语 言 都 包含 哪些 关 
键 字 ;， 然 后 在 第 二 部 分 ， 我 们 就 其 中 主要 的 关键 字 给 大 家 做 详细 介 


1.Pig Latin 关 键 字 


表 14-2 给 出 了 一 些 与 首 字母 相对 应 的 关键 字 。 


# 14-2 Pig Latin 关键 字 


HFR 对 应 关键 字 
-- A and, any, all, arrange, as, asc. AWG 
--B bag, BinStorage, by, bytearray 
-- C cache, cat, cd, chararray, cogroup, CONCAT, copyFromLocal, copyToLocal, COUNT, cp, cross 
-- D wdeclare, default, define, dese, describe, DIFF, distinct, double, du, dump 
-- E c, E, eval, exec, explain 
-- F f, F, filter, flatten, float, foreach, full 
--G generate, group 
--H help 
-- l if, illustrate, inner, input, int, into, ts 
-- J join 
--K kill 
--L 1, L, left, limit, load, long, Is 
--M map, matches, MAX, MIN, mkdir, mv 
-- N not, null 
-- O or, order, outer, output 
-- P parallel, pig. PigDump, PigStorage, pwd 
-- Q quit 
-- R register, right, rm, rmf, run 
-- $ sample, set, ship, SIZE, split, stderr, stdin, stdout, store, stream, SUM 
--T TextLoader, TOKENIZE, through, tuple 


--U union, using 


2.7 HREF 


在 Pig Latin 第 用 的 关键 子 中 ， 我 们 将 其 分 为 四 类 : 关系 运算 符 、 诊 
断 运 算 符 、Load/Store 函 数 和 文件 命令 。 


(1) 关系 运算 符 
Load 
它 的 作用 是 从 文件 系统 中 加 载 数 据 ， 语 法 如 下 : 


LOAD'data'[USING function][AS schema] 


在 这 里 “data” 表 示 文 件 或 目录 的 名 字 ， 并 且 要 用 单 引 号 括 起 来 。 如 
果 用 户 指定 一 个 目录 的 名 字 ， 目 录 中 所 有 的 文件 将 被 加 载 。 中 括号 中 
的 内 容 为 可 选项 (如 果 没 有 特殊 指明 ,，“[]* 都 表示 可 选项 ) ， 用 户 只 在 
需要 的 时 候 指明 ， 可 以 省 略 。 这 里 使 用 Schema 来 指定 加 载 数据 类 型 ， 
如 果 数 据 类 型 与 模式 中 指定 的 数据 类 型 不 符 ， 那 么 系统 将 产生 一 个 
null， 甚 至 会 报错 。 


下 面 是 我 们 给 出 的 几 个 Load 操 作 的 例子 : 


不 使 用 任何 方式 : 
A=LOAD'myfile.txt'; 
使 用 加 载 画 数 : 


A=LOAD'myfile.txt'USING PigStorage ('\t') ; 


A=LOAD'myfile.txt'AS (f1: int, f2: int, f3: int) ; 


DERK ZERIE H : 


A=LOAD'myfile.txt'USING PigStorage ('\t') AS (f1: int, f2: int, 
f3: int) 3 


Store 

TERIYE le GAR REECE AR, AN PAT: 

STORE alias INTO'directory'[USING function]; 

这 里 的 “alias” 是 用 户 要 存储 的 结果 (RA) 的 名 称 ，INTO 为 不 可 
省 上 略 的 关键 子 ，Directory 为 用 户 指定 的 存储 目录 的 名 字 ， 和 需要 用 单 引号 


括 起 来 。 另 外 ， 如 果 此 目录 已 经 存在 ， 那 么 Store 操 作 将 会 失败 ， 输 出 
文件 将 被 系统 命名 成 part-nnnnn 的 格式 。 


Foreach 
它 的 作用 是 基于 数据 的 列 进行 数据 转换 ， 语 法 如 下 : 


alias=FOREACH{gen_blk|nested gen_blk}[AS schema]; 


通常 我 们 使 用 “FOREACH......GENERATE” 组 合 来 对 数据 列 进 行 操 
YE, 下面 是 两 个 人 简单 的 例子 。 


如 果 一 个 关系 A (outer bag) ，FOREACH 语 句 可 以 按 下 面 的 方式 
来 使 用 : 


X=FOREACH A GENERATE f1; 


如 果 人 A 是 一 个 inner bag, FOREACH 语 句 可 以 按 下 面 的 方式 来 使 用 : 


X=FOREACH B{ 

S=FILTER A BY'xyz'; 
GENERATE COUNT (S.$0) ; 
} 


对 于 初级 用 户 来 说 ， 仅 需要 掌握 第 一 种 操作 方式 ， 关 于 Foreach 关 
键 字 的 更 多 内 容 我 们 将 在 今后 进行 详细 的 讨论 。 


它 的 作用 是 将 结果 显示 到 屏幕 上 ， 语 法 如 下 : 

DUMP alias 

这 里 的 “alias” 为 被 操作 关系 的 名 字 。 

使 用 DUMP 操 作 符 来 执行 Pig Latin 语 句 ， 并 且 把 结果 输出 到 屏幕 
上 。 使 用 DUMP 意 味 着 使 用 交互 式 模式 ， 也 就 是 说 ， 语 句 被 马上 执 
行 ， 但 结果 并 没有 人 被 保存 。 用 户 可 以 使 用 DUMP 作 为 一 个 调试 设备 ， 


用 来 检查 用 户 期 望 的 数据 是 否 已 经 生成 。 另 外 用 户 应 该 有 选择 地 使 用 
DUMP， 因 为 它 会 使 多 值 查询 优化 无 效 ， 并 且 可 能 会 减 慢 执行 。 


示例 : 


A=LOAD'student'AS (name: chararray, age: int, gpa: float) ; 
DUMP A; 


这 里 Pig 将 会 把 A 中 所 有 的 数据 输出 到 屏幕 上 。 
Describe 
它 的 作用 是 返回 一 个 名 称 的 模式 ， 语 法 如 下 : 


DESCRIBE alias; 


使 用 DESCRIBE 操 作答 来 查看 指定 名 称 的 模式 。 


在 这 个 例子 中 ， 使 用 ASs 子 名 来 指定 一 个 模式 ， 如 于 所 有 的 数据 都 
符合 这 个 模式 ，Pig 将 使 用 已 分 配 的 类 型 。 然 后 我 们 使 用 DESCRIBE 操 
作 符 来 查看 它们 的 模式 。 

A=LOAD'student'AS (name: chararray, age: int, gpa: float) ; 
B=FILTER A BY name matches'J.t+'; 

C=GROUP B BY name; 

D=FOREACH B GENERATE COUNT (B.age) ; 

DESCRIBE A; 

A: {group, B: (name: chararray, age: int, gpa: float} 

DESCRIBE B; 

B: {group, B: (name: chararray, age: int, gpa: float} 

DESCRIBE C; 

C: {group, chararry, B: (name: chararray, age: int, gpa: float} 


DESCRIBE D; 
D: {long} 


(3) Load/Store 函 数 
PigStorage 的 作用 是 加 载 、 存 储 UTF-8 格 式 的 数据 ， 语 法 如 下 : 


PigStorage (field_delimiter) 


Field_delimiter 为 PigStorage 函 数 的 参数 ， 用 来 指定 函数 的 字段 定 界 
符 。PigStorage 函 数 默认 的 字段 定 界 符 为 : tab t) ， 用 户 也 可 以 指定 
其 他 字段 定 界 符 ， 但 定 界 符 要 在 单 引 号 中 指明 。 


PigStorage 是 LOAD 和 STORE 操作 符 默 认 的 加 载 函 数 ， 而 且 能 够 处 
理 简单 的 和 复杂 的 数据 类 型 。 


PigStorage 对 有 结构 的 文本 进行 读 取 ， 并 采用 UTF-8 编 码 进行 存 
储 。 

在 Load 语 句 中 ，PigStorage 斋 望 数据 使 用 域 定 界 符 进行 格式 化 。 殊 
认 情 况 下 为 字符 (\t) ， 用 户 也 可 以 指定 其 他 的 字符 。 

在 Store 语 句 中 ，PigStorage 同 样 使 用 域 是 界 符 来 输出 数据 。 它 的 操 
作 方 法 和 Load 语 句 相 同 ， 另 外 Store 语 句 的 记录 定 界 符 使 用 (\n') 。 


Load 或 Store 语 句 的 默认 的 域 定 界 符 均 为 tab (\t) 。 用 户 可 以 使 用 
其 他 字符 作为 字段 定 界 侍 。 但 是 像 ^A 或 Ctrl-A 等 字符 应 使 用 UTF-16 编 
码 格式 进行 编码 。 


Load 语 句 中 ，Pig 注 明 记录 定 界 符 为 ， 换 行 符 On) 、 回 车 返回 符 
(\r) 或 CTRL-M 以 及 组 合 的 CR+LF 字 符 (Wn') 趾 。 在 Store 语 句 
中 ，Pig 使 用 换行 符 作为 记录 定 界 符 。 


以 下 提供 一 个 示例 。 


在 这 个 例子 中 PigStorage 使 用 tab 作 为 域 是 界 符 ， 换 行 符 为 记录 定 界 
符 ， 并 且 下 面 的 两 条 语句 是 等 价 的 : 


A=LOAD'student 'USING PigStorage ('\t') AS (name: chararray, age: 
int, gpa: float) ; 
A=LOAD'student'AS (name: chararray, age: int, gpa: float) ; 


在 这 个 例子 中 ，PigStorage 将 X 的 内 容 存 储 到 文件 中 ， 并 且 使 用 星 
写作 为 域 吓 界 符 。STORE 函 数 将 结果 存储 在 output 目 录 中 。 


STORE X INTO'output'USING PigStorage ('*') ; 
(4) CPA: 


cd 


TERE A ef S BRIER Ao, WEU T: 


cd[dir] 


此 处 的 cd 命令 和 Linux 的 cd 命令 非 第 相似 ， 能 够 用 来 对 文件 系统 进 
行 定 位 。 如 果 用 户 指 定 了 一 个 目 孙 ， 那 么 这 个 目录 将 成 为 用 户 当 前 的 
工作 目 示 ， 并 且 用 户 所 有 其 他 的 操作 都 将 相对 于 这 个 目录 来 进行 。 如 
条 没有 指定 任何 目 孙 ， 用 户 的 根 目 永 将 成 为 当前 的 工作 目录 。 


copyFromLocal 


TERE FA ze ASHE RSS ll SC PPE A Se BHDFS'P, AA 
ibs 


copyFromLocal src_path dst_path 


其 中 ，src_path 为 本 地 系统 中 的 文件 或 目录 的 路 径 ，dst_path 为 
HDFS 系 统 中 的 路 径 。 


CopyFromLocal 命 令 让 用 户 能 够 从 本 地 文件 系统 中 复制 文件 或 目录 
到 Hadoop 的 分 布 式 文件 系统 


Is 
它 的 作用 是 显示 一 个 目录 中 的 内 容 ， 语 法 如 下 : 


ls[path] 


此 处 的 ls 命令 和 Linux 中 的 ls 命令 相似 ， 如 来 指定 一 个 目 隶 ， 这 个 命 
令 将 列 出 被 指定 目 孙 中 的 内 容 。 如 采 不 指定 参数 ， 那 么 系统 将 列 出 当 
前 工作 目 孙 中 的 内 容 。 


rm 


它 的 作用 是 移 除 一 个 或 更 多 的 文件 或 目录 ， 语 法 如 下 : 


rm path[path......] 


此 处 的 rm 命令 和 Linux 中 的 rm 命令 相似 ， 让 用 户 能 够 移 除 一 个 或 多 
个 文件 或 目录 。 


[1] 一 定 不 要 将 这 些 字符 用 作 域 定 界 符 。 


144 ”用户 定 义 函 数 


大 家 可 以 使 用 用 户 定义 函数 (User Defined Functions, UDFs) 来 编 
写 特 定 的 处 理 函 数 ， 这 大 大 地 增强 了 Pig Latin 语 言 的 功能 ， 用 户 可 以 
方便 地 对 其 功能 进行 扩充 和 完善 。Pig 为 用 户 定义 函数 提供 了 大 量 的 文 
持 ，UDFs 儿 乎 可 以 作为 Pig 所 有 操作 符 的 一 部 分 来 使 用 。 


下 面 我 们 将 通过 一 个 实例 来 帮助 大 家 学 习 如 何 编写 UDFs， 以 及 如 
何 让 Pig 使 用 大 家 编写 的 UDFs。 


这 里 我 们 给 出 一 个 学 生 表 (F5, WES, PES, FRR, PTE 
系 ) ， 其 中 含有 如 下 几 条 记录 : 


201000101: 李 勇 : Boy: 20: 计算 机 软件 与 理论 
201000102: Ei: Girl: 19: 计算 机 软件 与 理论 
201000103: 刘 花 : Girl: 18: 计算 机 应 用 技术 
201000104: 484: Boy: 19: 计算 机 系统 结构 
201000105: 吴 达 : Boy: 19: 计算 机 系统 结构 


201000106: 滑 可 : Boy: 19: 计算 机 系统 结构 


它们 所 对 应 的 数据 类 型 如 下 所 示 : 


Student (Sno: chararray, Sname: chararray, Ssex: chararray, Sage: 
int, Sdept: chararray) 


这 里 字段 与 字段 之 间 通 过 冒号 (半角 英文 标点 ) 隔 开 ， 下 面 我 们 
一 个 函数 ， 能 够 将 所 有 的 小 写字 母 转换 成 对 应 的 大 写字 母 。 


a 


将 编 和 


下 


14.4.1 编写 用 户 定义 函数 


下 面 是 我 们 编写 的 UDFs 代 码 ， 如 代码 清单 14-1 所 示 。 


代码 清单 14-1 UDFs 代码 
Package cn.edu.ruc.cloudcomputing.book.chapterl4; 
import java.io.I0Exception; 
import org.apache.pig.EvalFunc; 


>Ò Wh PH 


import org.apache.piq.data.Tuple; 


import org.apache.pigq.impl.util.WrappedIOException; 


D y 


7 public class UPPER extends EvalFunc «String> 


8 { 

9 public String exec(Tuple input) throws IOException | 
10 if {input == null || input.size(}) == 0) 

11 return null; 

12 try{ 

13 String str = (String) input.get (0); 

14 return str.toUpperCage () ; 

15 bcatch{Exception 所) { 

16 throw WrappedIOException.wrap("Caught exception processing input row ", e); 
17 } 

18 } 

19} 


代码 的 第 1 行 表 明 这 个 函数 是 myudfs 包 的 一 部 分 。 这 个 UDF 类 是 
EvalFunc 类 的 继承 ，EvalFunc 是 所 有 eval 函 数 的 基 类 。 在 这 个 例子 中 ， 


这 个 类 使 用 返回 值 类 型 为 Java String 的 参数 进行 参数 化 。 现 在 我 们 需要 
AK WlEvalFunc# Hexe Kal ° EAE, BARA Ace tuple 

合 ， 它 们 按照 Pig 脚 本 加 载 的 顺序 依次 说 调用 。 每 当 输 入 一 个 tuple， 
UDEF 将 被 调用 一 次 。 在 我 们 的 例子 中 ， 它 是 一 个 与 学 生 的 性 别 相 一 臻 
FITERE ° 


我 们 首先 需要 做 的 是 处 理 无 效 的 数据 。 这 依赖 于 数据 的 格式 ， 如 
果 数 据 为 字 市 数组， 那 就 意味 着 它 不 需要 被 转化 为 其 他 的 数据 类 型 ; 
如 果 输 入 的 数据 为 其 他 类 型 ， 那 么 就 需要 将 数据 转换 成 适当 的 数据 类 
型 ， 如 采 输 入 数据 的 格式 不 能 被 系统 识别 或 转换 ，NULL 值 将 被 返 
回 。 这 就 是 我 们 例子 中 的 第 16 行 会 抛 出 一 个 错误 的 原因 。 在 这 里 ， 
WrappedIOException 是 一 个 帮助 类 ， 帮 助 我 们 把 真实 的 异常 转换 为 IO 


已 Ae 
JE ° 


另外 ， 注 意 第 10~-11 行 的 作用 为 检查 输入 数据 为 nul] 或 空 。 如 果 为 


null 或 空 ， 系 统 将 返回 null 。 


很 容易 看 出 ， 求 数 的 实现 部 分 在 第 13~14 行 ， 它 们 使 用 Java 函 数 
将 接收 的 输入 转换 为 相应 的 大 写 。 


如 采 要 使 用 这 个 函数 ， 它 需要 被 编译 并 且 包 售 在 一 个 JAR 中 。 用 
户 需要 建立 pig.jar 来 编译 用 户 的 UDF。pig.jar 文 件 需 要 用 户 自行 下 载 安 


装 。 可 以 使 用 下 面 的 命令 集 从 SVN 库 中 检验 代码 并 且 创 建 pig.jar 文 
m 


svn co http: //svn.apache.org/repos/asf/pig/trunk 
cd trunk 
ant 


注意 ”在 使 用 svn 和 ant 操 作 之 前 ， 要 确保 系统 已 经 安 疼 了 SVN 和 


ant!!! o 


上 述 操作 完成 之 后 ， 用 户 可 以 在 上 自己 当前 的 工作 目录 中 看 到 
pig.jar 文 件 〈 它 位 于 trunk 目 录 下 ) 


当 pig.jar 文 件 创建 完成 之 后 ， 我 们 首先 需要 对 函数 进行 编译 ， 然 
后 再 创建 一 个 包含 这 个 函数 的 JAR 文 件 。 具 体操 作 命 令 如 下 : 
cd myudfs 
javac-cp pig.jar UPPER.java 
cd.. 


jar-cf myudfs.jar myudfs 


[1] 这 部 分 知识 已 经 超出 了 本 书 的 内 容 ， 有 具体 的 操作 大 家 可 以 参考 其 他 
相关 书籍 。 


14.4.2 (EHH F ELKA 


下 面 是 我 们 所 编写 的 pig 脚 本 ， 它 使 用 我 们 所 编写 的 用 户 定 义 函 数 
对 上 面 给 出 的 学 生 表 进行 了 相应 的 操作 。 
1--myscript.pig 
2 REGISTER myudfs. jar; 
3 A=LOAD'Student'using PigStorage (': ') as (Sno: chararray, 
Sname: chararray, Ssex 
: chararray, Sage: int, Sdept: chararray) ; 


4 B=FOREACH A GENERATE myudfs.UPPER (Ssex) ; 
5 DUMP B; 


我 们 使 用 下 面 的 命令 执行 此 脚本 文件 。 其 中 ， 使 用 “-x 
mapreduce" 指 定 函 数 运行 的 模式 ， 如 采用 户 只 是 为 了 对 函数 进行 测 
试 ， 建 议 用 户 在 local 模 式 下 运行 。 因 为 对 于 小 文件 来 说 ，MapReduce 
模式 的 准备 时 间 显得 过 长 ， 有 时 候 甚 至 让 用 户 觉 得 MapReduce 模 式 下 
文件 的 运行 效率 比 local 模 式 下 还 要 低 。 为 了 验证 函数 的 通用 性 ， 这 里 
我 们 使 用 MapReduce 模 式 。 


java-cp pig.jar org.apache.pig.Main-x mapreduce myscript.pig 


这 个 脚本 的 第 2 行 提 供 了 JAR 文 件 的 位 置 ， 这 个 JAR 文 件 中 包含 我 
们 刚 品 编写 的 用 户 定义 函数 (注意 : jar 文 件 上 没有 引号 ) 。 为 了 找到 
JAR 文 件 的 位 置 ，Pig 首 先 检 查 classpath 环 境 变 量 。 如 果 在 classpath 环 境 


变量 中 不 能 找到 JAR 文 件 ，Pig 将 假定 地 址 为 绝对 地 址 或 一 个 相对 于 Pig 
被 调用 位 置 的 地 址 。 如 果 JAR 文 件 仍旧 不 能 被 发 现 ， 系 统 将 返回 一 个 


HR 


ZN APE ERC] DAF CE PER) AIAN WR SE EE] BS 
格 的 函数 出 现在 多 个 JAR 中 ， 那 么 根据 Java 语 义 ， 第 一 个 出 现 的 函数 
将 被 一 直 使 用 。 


UDEF 的 名 称 和 包 名 必须 要 完全 合格 ， 否 则 系统 将 返回 一 个 错误 : 


java.io.IOException: Cannot instantiate: UPPER. 


另外， 函数 的 名 称 区 分 大 小 写 (比如 : UPPER 和 upper 是 不 同 
的 ) ，UDEF 也 可 以 包含 一 个 或 更 多 的 参数 。 


当 操作 完成 之 后 ， 我 们 可 以 在 终端 上 看 到 Pig 输 出 的 正确 结果 : 


用 户 定 义 函 数 还 包括 很 多 其 他 的 内 容 ， 限 于 篇 幅 ， 我 们 在 这 里 只 


做 简单 介绍 。 


14.5 ”Zebra 简介 


Zebra 是 提供 列 式 数 据 读 写 的 路 径 访问 库 。 它 相当 于 用 户 应 用 程序 
和 Hadoop 分 布 式 文件 系统 (HDFS) 之 间 的 抽象 层 。 用 户 的 数据 可 以 
通过 Zebra 的 TableStore 类 加 载 到 HDFS 中 。 目 前 ，Zebra 提 供 了 对 Pig、 
MapReduce 以 及 Streaming 作 业 的 支持 ， 其 关系 如 图 14-3 所 示 。 


Pi MapReduce 
Zebra! 
Hadoop { j HDFS 


14-3 ”Zebra 与 相关 工具 的 关系 
14.5.1 ” Zebra 的 安装 


Zebra 的 安装 依赖 于 以 下 文件 : 
Pig， 要 求 版 本 在 0.7.0 以 上 ; 
Hadoop， 要 求 版 本 在 0.20.2 以 上 ; 
JDK， 要 求 版 本 在 1.6 以 上 ; 


Ant， 要 求 版 本 在 1.7.1 以 上 。 


目前 ， 在 Pig-0.10.0 版 本 中 ， 已 经 集成 了 Zebra 文 件 ， 位 于 
$PIG_HOME/contrib/zebra 目 隶 下 。 男 外 ， 我 们 也 可 以 使 用 svn 从 Pig 版 
本 库 中 直接 下 载 : 


svn co http: //svn.apache.org/viewvc/pig/trunk/contrib/zebra/ 


这 样 ， 用 户 可 以 在 当前 目录 下 发 现下 载 完成 的 文件 。 


无 论 是 在 Pig-0.10.0 安 装 包 还 是 直接 从 SVN 库 中 下 载 的 Zebra， 都 是 
没有 编译 的 源 文件 ， 我 们 需要 上 自行 编译 。 编 译 需 要 分 为 如 下 两 个 步 
又 ， 如 下 所 示 : 


(1) 编译 Pig 


cd$PIG_HOME 
ant jar 


该 步 又 首先 进入 Pig 的 根 目录 ， 然 后 运行 ant 命 令 进 行 编译 。 


注意 ”该 步骤 是 为 了 生成 Pig 的 JAR 文 件 ， 一 般 直接 下 载 的 pig- 
0.10.0 安 装 包 里 已 经 编译 好 ， 因 此 可 以 省 略 。 但 是 从 Pig 的 SVN 库 中 下 
载 的 Pig 源 文件 往往 没有 编译 ， 故 此 需要 该 步 又。 


(2) 编译 Zebra 


cd./contrib/zebra 
ant jar 


当 上 述 两 步 完成 后 ， 将 会 在 $PIG_HOME/contrib/zebra 目 录 下 生成 
Zebra 的 jar 文 件 。 


14.5.2 ”Zebra 的 使 用 简介 


从 图 14-3 中 我 们 可 以 看 出 ，Zebra 支 持 Pig、MapReduce 以 及 
Streaming 三 种 方式 。 在 本 六 中 ， 我 们 主要 介绍 如 何 使 用 Pig 来 调用 
Zebra 进 行 数据 的 读 写 ， 其 他 相关 部 分 大 家 可 以 从 Zebra 官 方 网 站 叫 上 
查阅 。 


Zebra 的 读 写 需要 首 允 声明 存储 模式 。Zebra 提 供 了 与 Pig 之 间 模 式 
的 自动 转换 ， 因 此 我 们 在 使 用 Pig 对 Zebra 进 行 操作 的 时 候 不 需要 指定 
模式 。 


下 面 介绍 如 何 使 用 Zebra 捉 供 的 类 加 载 数据 。 在 加 载 数据 时 需要 使 
用 Zebra 的 TableLoader 类 ， 该 类 包含 两 个 构造 函数 ， 如 下 所 示 : 


TableLoader () 
TableLoader (String projectionStr) 


如 果 使 用 “TableLoader () ”构造 函数 ，Zebra 将 自动 识别 数据 的 
列 ， 并 为 其 指定 模式 : 或 者 可 以 使 用 第 二 种 构造 畏 数 ， 其 中 ， 参 
数 “projectionStr” 指 定 的 是 投影 字符 串 ， 用 *“，” 分 割 被 投影 的 字段 。 


下 面 操作 将 从 表 “student" 中 加 载 数据 : 


register$LOCATION/zebra-$version. jar; 


A=LOAD'studenttab'USING org.apache.hadoop.zebra.pig.TableLoader 
Q; 


可 以 看 到 与 使 用 UDFs 类 似 ， 在 使 用 之 前 首先 需要 使 用 register 语 句 
将 相应 的 JAR 包 注册 。 


我 们 可 以 使 用 DESCRIBE 语 句 来 查看 表 的 模式 : 


DESCRIBE A; 
A: {name: chararray, age: int, gpa: float} 


另外 ， 可 以 在 加 载 数据 的 时 候 利 用 Zebra 将 其 进行 排序 : 


A=LOAD'studentsortedtab 'USING 
org.apache.hadoop.zebra.pig.TableLoader ('', 'sorted') ; 


如 上 所 示 ， 将 TableLoader 的 第 一 个 参数 设置 为 空 代表 加 载 所 有 的 
列 。 有 序 的 表 能 够 加 快 Merge Join 的 操作 。 


限于 篇 幅 ， 这 里 我 们 介绍 了 简单 的 Zebra 和 Pig 的 交互 操作 ， 其 他 
更 多 内 容 大 家 可 以 查看 Zebra 的 JAVA API ° 


[1] http: //pig.apache.org/docs/r0.9.2/zebra_overview.html ° 


14.6 Pig 实例 


下 面 我 们 将 结合 第 14.2.3 市 所 介绍 的 Pig 运 行 模式 给 出 相应 的 例 
子 。 这 里 我 们 给 出 一 个 学 生 表 (学 号 ， 姓 名 ， 性 别 ， 年 龄 ， 所 在 
系 ) ， 其 中 含有 如 下 几 条 记录 : 


201000101: 2H: B. 20: 计算 机 软件 与 理论 
201000102: EW: &: 19: 计算 机 软件 与 理论 
201000103: 刘 花 : 女 : 18: 计算 机 应 用 技术 
201000104: ZY: B: 19: 计算 机 系统 结构 
201000105: Sik: B: 19: 计算 机 系统 结构 
201000106: 滑 可 : 男 : 19: 计算 机 系统 结构 


它们 所 对 应 的 数据 类 型 如 下 所 示 : 


Student (Sno: chararray, Sname: chararray, Ssex: chararray, Sage: 
int, Sdept: chararray) 


这 里 字段 与 字段 之 间 通 过 冒号 (半角 英文 标点 ) 隔 开 ， 下 面 我 们 
将 在 不 同 的 运行 方式 下 取出 各 个 学 生 的 姓名 和 年 龄 两 个 字段 。 
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14.6.1 Local 模 式 


这 一 市 我 们 将 结合 上 面 给 出 的 实例 ， 具 体 讲解 如 何在 Pig 的 Local 
模式 下 对 数据 进行 操作 。 同 时 ， 我 们 对 Pig 在 Local 模 式 下 的 三 种 运行 
方式 都 进行 详细 的 介绍 。 


1.Grunt Shell 


通过 14.3.3 一 广 中 对 Pig 的 数据 模式 的 介绍 ， 我 们 可 以 了 解 到 ， 记 
录 是 域 的 有 序 集合 。 因 此 ， 在 我 们 对 数据 进行 操作 之 前 ， 需 要 按照 文 
件 中 数据 相应 的 字段 和 类 型 来 加 载 数据 。 通 过 下 面 的 这 一 条 命令 ， 我 
们 可 以 把 前 面 给 出 的 例子 按照 对 应 字段 和 对 应 数据 类 型 进行 加 载 : 


grunt > >A=load'/path/Student'using PigStorage (': ') as (Sno: 
chararray, Sname: chararray, 
Ssex: chararray, Sage: int, Sdept: chararray) ; 


通过 Foreach 命 令 ， 从 人 A 中选 出 Student 相 应 的 字段 ， 并 存储 到 B 


grunt> >B=foreach A generate Sname, Sage; 


通过 dump 命 令 ， 将 B 中 的 内 容 输出 到 屏幕 上 : 


grunt > >dump B; 


下 面 一 步 将 B 的 内 容 输 出 到 本 地 文件 中 : 


grunt>->store B into'/path/grunt.out' 


现在 我 们 可 以 打开 grunt.out 文 件 来 查看 操作 的 结果 ， 如 下 所 示 : 
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2. 脚 本 文件 
脚本 文件 实质 上 是 pig 命 令 的 批 处 理 文件 。 
我 们 给 出 的 script.pig 文 件 包含 以 下 内 容 : 


A=load'/path/Student'using PigStorage (': ') as (Sno: chararray, 
Sname: chararray, 

Ssex: chararray, Sage: int, Sdept: chararray) ; 

B=foreach A generate Sname, Sage; 

dump B; 

store B into'/path/tst.out'; 


ADAH, SPAS ie Grunt shell 下 命令 的 一 个 集合 。 


我 们 通过 下 面 的 命令 调用 这 个 脚本 文件 ， 可 以 看 到 ， 生 成 的 结果 


3. 舱 入 式 程序 


用 户 可 以 方便 地 使 用 Java 语 言 来 书写 相应 的 Pig 脚 本 ， 如 代码 清单 


14-2 所 示 。 
代码 清单 14-2 ”Local 模 式 下 用 Java 编 写 的 Pig 肢 本 


package cn.edu.ruc.cloudcomputing.book.chapter14; 
import java.io. IOException; 

import org.apache.pig.PigServer; 

public class tst_local{ 

public static void main (String[]args) { 

try{ 

PigServer pigServer=new PigServer ("local") ; 
runIdQuery (pigServer, "/path/Student") ; // 调 用 函数 


catch (Exception e) {} 


public static void runIdQuery (PigServer pigServer, String 
inputFile) throws 

IOException{ 

pigServer.registerQuery ("A=load'"+inputFile+"'using PigStorage 

(': ') as 
(Sno: chararray, Sname: chararray, Ssex: chararray, Sage: int, 

Sdept: chararray) ; ") ; 

pigServer.registerQuery ("B=foreach A generate Sname, Sage; ") ; 

pigServer.store ("B", "/path/tstJavaLocal.out") ; 


} 
} 


下 面 我 们 将 通过 14.2.3 节 中 所 介绍 的 在 嵌入 式 方式 下 运行 pig 脚 本 
的 命令 来 对 此 文件 进行 编译 、 运 行 。 


首先 ， 使 用 下 面 命令 对 此 Java 源 文件 进行 编译 : 


$javac-cp pig-*.*.*-core.jar local.java 


令 运 行 “.class” 类 文件 : 


HH 


Ja, i Pl 


. local 


当 编译 完 
$java-cp pig-*.*.*-core.jar: 
然后 打开 生成 的 结果 文件 *tstJavaLocal.out”， 我 们 会 发 现 它 和 前 面 


两 种 方式 生成 的 结果 是 完全 相同 的 。 


14.6.2 ”MapReduce 模 式 


这 一 太 我 们 将 结合 上 面 给 出 的 实例 具体 讲解 如 何在 Pig 的 
MapReduce 模 式 下 对 数据 进行 操作 。 同 时 ， 我 们 同样 对 Pig 在 
MapReduce 模 式 下 的 三 种 运行 方式 进行 详细 介绍 。 


1.Grunt Shell 


MapReduce 模 式 下 ，Pig 的 使 用 其 实 是 Pig Local 模 式 和 Hadoop 操 作 
的 结合 。 因 为 要 运行 MapReduce 程 序 我 们 需要 在 Hadoop 的 HDFS 文 件 
系统 下 对 文件 进行 操作 ， 但 是 在 Linux 系 统 下 我 们 是 看 不 到 HDFS 文 件 
系统 下 的 文件 的 ， 所 以 就 不 能 使 用 常规 的 操作 来 “搬运 ”文件 。 这 里 ， 
我 们 就 需要 使 用 与 HDFS 相 关 的 命令 在 HDFS 文 件 系 统 下 执行 Pig 的 命 
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首先 ， 从 终端 进入 Pig 的 MapReduce 模 式 ， 然 后 使 用 
copyFromLocal 命 令 将 文件 从 本 地 复制 到 HDFS 文 件 系统 中 ， 如 下 所 


JN: 


grunt>>copyFromLocal srcpath/Student dstpath; 


通过 ls 命令 ， 我 们 可 以 查看 是 否 成 功 将 文件 复制 到 相应 的 HDFS 文 
件 系 统 中 了 。 操 作 完 成 后 ， 我 们 区 ® 可 以 像 在 Local 模 式 下 一 样 对 文件 进 


行 操作 了 。 这 里 ，Pig 会 目 动 地 将 我 们 的 命令 分 散 到 分 布 式 系统 中 去 执 
行 ， 然 后 返回 给 用 户 。 


2. 脚 本 文件 
参考 Local 模 式 下 脚本 文件 的 执行 。 
3. 舱 入 式 程序 


参考 Local 模 式 下 脚本 文件 的 执行 ， 这 里 我 们 给 出 MapReduce 模 式 
下 程序 的 代码 ， 可 以 看 到 ， 除 了 指定 相应 的 模式 之 外 ，MapReduce 模 
式 下 程序 代码 和 Local 模 式 没有 什么 不 同 。 这 是 因为 ， 所 有 的 分 布 式 操 
作 将 由 Pig 系 统 目 动 执行 ， 而 不 需要 用 户 在 MapReduce 的 编程 框架 下 设 
计 程 序 ， 这 束 大 大 地 减轻 了 用 户 的 人 负担， 也 使 得 用 户 能 更 容易 掌握 Pig 
散 入 式 程序 ， 见 代码 清单 14-3。 


代码 清单 14-3 ”MapReduce 模 式 下 的 Pig 脚 本 


package cn.edu.ruc.cloudcomputing.book.chapter14; 

import java.io. IOException; 

import org.apache.pig.PigServer; 

public class tst_mapreduce{ 

public static void main (String[]args) { 

try{ 

PigServer pigServer=new PigServer ("mapreduce") ; //MapReduce 模 式 
runIdQuery (pigServer, "/path/Student") ; // 调 用 函数 


catch (Exception e) {} 


public static void runIdQuery (PigServer pigServer, String 
inputFile) throws 


IOException{ 
pigServer.registerQuery ("A=load'"+inputFile+"'using PigStorage 
(': ') as 
(Sno: chararray, Sname: chararray, Ssex: chararray, Sage: int, 
Sdept: chararray) ; ") ; 
pigServer.registerQuery ("B=foreach A generate Sname, Sage; ") ; 
pigServer.store ("B", "/path/tstJavaMapReduce.out") ; 


i; 
J} 


14.7 ”Pig 进 阶 


本 节 将 继续 介绍 Pig 在 实际 中 的 应 用 ， 为 了 体现 Pig 系 统 的 特点 ， 
本 节 中 的 所 有 操作 都 将 在 Hadoop MapReduce 模 式 下 进行 。 另 外 ， 我 们 
选取 了 一 组 很 有 特点 的 例子 进行 数据 分 析 ， 相 信 这 对 大 家 的 理解 一 定 
很 有 帮助 。 


为 了 让 大 家 能 够 更 好 地 理解 下 面 的 操作 ， 我 们 使 用 Grunt Shell 方 
式 进行 数据 分 析 ， 这 样 能 够 让 大 家 更 加 清楚 地 理解 Pig 的 执行 过 程 。 


14.7.1 数据 实例 


结合 14.6 节 中 的 数据 ， 我 们 再 给 出 另外 两 个 数据 。 


第 一 组 数据 是 14.6 广 中 的 学 生 表 所 对 应 的 课程 表 CURES > URE 
名 、 先 修 课程 号 、 学 分 ) ， 它 包含 如 下 几 条 记录 : 


01, English, 4 

02, Data Structure, 05, 2 

03, DataBase, 02, 2 

04, DB Design, 03, 3 

05, C Language, 3 

06, Principles Of Network, 07, 3 
07, OS, 05, 3 


它们 所 对 应 的 数据 类 型 如 下 所 示 : 


Course (Cno: chararray, Cname: chararray, Cpno: chararray, 
Ccredit: int) 


另外 一 组 数据 为 学 生 表 和 课程 表 所 对 应 的 选课 表 (学 号 、 课 程 
号 、 成绩 ) ， 它 包含 如 下 几 条 记录 


201000101, 01, 92 
201000101, 03, 84 
201000102, 01, 90 
201000102, 02, 94 
201000102, 03, 82 
201000103, 01, 72 
201000103, 02, 90 
201000104, 03, 75 


它们 所 对 应 的 数据 类 型 如 下 所 示 : 


SC (Sno: chararray, Cno: chararray, Grade: int) 


14.7.2 “Pig 数据 分 析 


下 面 我 们 将 对 学 生 表 、 课 程 表 和 选课 表 进 行 数据 分 析 操 作 。 这 一 
小 节 将 分 三 个 部 分 ， 分 别 计算 学 生 的 平均 成 绩 、 找 出 有 不 及 格 成 绩 的 
学 生 和 找 出 修了 先 修 课 为 “C Language” 的 学 生 。 在 语法 上 ，Pig Latin 虽 
然 没 有 关系 数据 库 中 的 关系 操作 语言 强大 ， 但 是 因为 Pig 系 统 架 设 在 
Hadoop 的 云 平台 之 上 ， 所 以 在 处 理 大 规模 数据 集 的 时 候 ，Pig 的 效率 却 


非常 高 。 


1. 计 算 每 个 学 生 的 平均 成 绩 


这 里 要 求 计算 出 每 个 学 生 的 平均 成 绩 ， 并 且 输 出 每 个 学 生 的 姓名 
及 其 平均 成 绩 。 


我 们 先 对 数据 进行 分 析 。 很 容易 看 出 ， 我 们 需要 对 学 生 表 和 远 课 
表 进 行 操作 。 首 先 ， 需 要 对 学 生 表 和 选课 表 基 于 学 号 字段 进行 连接 ; 
然后 ， 基 于 学 号 对 学 生 数 据 进行 操作 ， 这 时 需要 对 每 个 学 生 所 有 的 课 
程 成 绩 分 别 求 和 ， 并 除 以 课程 总 数 ; 最 后 ， 按 格式 输出 结果 。 


对 于 传统 的 关系 型 数据 库 的 关系 操作 语言 来 说 ， 为 了 实现 这 个 目 
标 ， 我 们 需要 AVG 运 算 和 GROUP 运算 同时 使 用 ， 十 分 方便 。 下 面 ， 我 
们 吏 Pig Latin 语 言 给 出 相应 的 操作 © 


1 从 源 数 据 文 件 学 生 表 和 选课 表 中 读 取 数 据 


2 对 学 生 表 和 选课 表 基 于 学 号 字段 进行 连接 操作 
3 ”基于 学 号 对 连接 生成 的 表 进 行 分 组 操作 
4 计算 每 个 学 生 的 平均 成 绩 


上 面 是 对 操作 的 描述 ， 接 下 来 需要 对 上 述 描述 用 Pig Latin 语 言 来 
实现 。 


(1) 读 取 数 据 


MapReduce 在 Hadoop 的 HDFS 文 件 系统 中 对 数据 进行 操作 ， 所 以 
需要 复制 要 操作 的 数据 到 HDFS 中 : 


copyFromLocal Student Student; 
copyFromLocal SC SC 


可 以 使 用 Hadoop 的 ls 命令 查看 数据 是 否 复制 成 功 ， 确 认 后 再 读 取 
数据 : 


A=load'Tmp/Student'using PigStorage (': ') as (Sno: chararray, 
Sname: chararray, Ss 

ex: chararray, Sage: int, Sdept: chararray) ; B=load'Tmp/SC'using 
PigStorage (', ') 

as (Sno: chararray, Cno: chararray, Grade: int) ; 


(2) 连接 操作 


使 用 JOIN 关键 字 对 A、B 两 组 数据 基于 Sno 字 段 进行 连接 操作 。 
JOIN 关键 字 的 语法 如 下 : 


alias=JOIN alias BY{expression|' ('expression[, 
expression.....]') '} (, alias BY 

{expression|' ('expression[, expression.....]') '}.u...) 
[USING'replicated' |'skewed' 

| 'merge'] [PARALLEL n]; 


下 面 是 连接 操作 的 命令 


D=Join A By Sno, B By Sno; 


这 里 我 们 可 以 使 用 DUMP 关 键 字 来 查看 DD 中 存储 的 数据 ， 如 图 14-4 
所 示 。 


2816-16-84 63:48:39,769 [eain) INFO org.apsche.ħadoop.napreduce. lib. ing 


to process : 1 
2816-18-84 63:48:39,776 [saia] INFO org.apache.pig.beckend.hadoop.« 


mee i al, 92) 


a4 ptr 63,75) 


14-4 对 学 生 表 和 选 谍 表 进行 连接 操作 后 的 结果 


(3) 分 组 操作 


在 进行 分 组 操作 之 前 ， 我 们 先 提取 必要 的 数据 ， 这 样 不 但 减少 了 
需要 处 理 的 数据 量 ， 而 且 让 我 们 的 操作 更 加 人 简单 。 接 着， 我 们 基于 学 
号 字段 对 连接 操作 后 的 数据 进行 分 组 ， 如 下 所 示 : 


E=Foreach D generate A: Sno, Sname, Grade; 
F=Cogroup E By (Sno, Sname) ; 


我 们 再 使 用 DUMP 关 键 字 查看 一 下 F 中 的 数据 ， 如 图 14-5 所 示 。 接 
着 用 DESCRIBE 分 析 F 的 模式 ， 如 图 14-6 所 示 


° 


, (281680182, £ M ,62)} 


chararray,A:iSmeme: chararray, B: :Grade 


14-6 下 的 模式 


(4) 计算 学 生 的 平均 成 绩 
我 们 使 用 SUM 关 键 字 对 学 生成 绩 进 行 求 和 ， 使 用 COUNT 关 键 字 
来 计算 课程 的 总 数 : 


G=Foreach F Generate group.Sname, (SUM (E.Grade) /COUNT (E) ) ; 


下 面 ， 我 们 查看 一 下 最 终 的 结果 ， 如 图 14-7 所 示 : 


图 14-7 学 生平 均 成 绩 


因为 Grade 字段 的 数据 类 型 为 int， 所 以 这 里 计算 出 的 结果 均 为 癌 下 
取 整 后 的 值 。 如 果 想 要 得 到 更 为 准确 的 数据 ， 大 家 可 以 将 Grade 字段 的 
数据 类 型 设 为 Long 或 Float ° 


2. 找 出 有 不 及 格 成 绩 的 学 生 


这 部 分 要 求 找 出 有 不 及 格 成 绩 的 学 生 ， 并 且 输 出 学 生 的 姓名 和 不 
及 格 的 课程 和 成 绩 。 


现在 对 问题 进行 分 析 。 我 们 需要 使 用 学 生 表 来 获取 学 生 的 姓名 ， 
使 用 诬 程 表 来 获取 学 生 的 成 绩 和 对 应 成 绩 的 课程 。 


首先 ， 我 们 还 是 需要 读 取 源 数 据 ， 然 后 使 用 连接 字段 将 数据 连接 
在 一 起 ， 接 着 使 用 FILTER 关 键 字 过 减 出 我 们 需要 的 数据 ， 最 后 提取 需 
要 的 字段 将 数据 输出 。 


这 里 我 们 不 再 像 上 面 那样 一 步 步 地 对 数据 进行 分 析 了 ， 下 面 给 
Pig Latin 操 作 语 句 : 


A=load'/pigTmp/Student'using PigStorage (': ') as (Sno: chararray, 
Sname: chararra 
y, Ssex: chararray, Sage: int, Sdept: chararray) ; -- 读 取 学 生 表 
B=load'/pigTmp/SC'using PigStorage (', ') as (Sno: chararray, 
Cno: chararray, Grade 
: int) ; -- 读 取 选 课表 


C=load'/pigTmp/Course'using PigStorage (', ') as (Cno: chararray, 
Cname: chararray, 
Cpno: chararray, Ccredit: int) ; -- 读 取 课 程 表 


RR， 减 少 操作 的 
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D=Filter B By Grade<60; -- 提 前 对 B 进 行 分 析 ， 过 滤 出 需要 的 结 
数据 量 


E=Join D By Sno, A By Sno; - -连接 操作 
F=Join E By Cno, C By Cno; - -连接 操作 
G=Foreach F Generate Sname, Cname, Grade; - -输出 结果 


最 后 我 们 使 用 DUMP 命 令 查 看 操作 的 结 采 ， 如 图 14-8 所 示 : 


14-8 不 及 格 成 绩 的 学 生 


3. 找 出 修了 先 修 课 为 “C Language” 的 学 生 


这 里 要 求 找 出 修了 先 修 课 为 “C Language” 的 学 生 ， 并 且 输 出 学 生 
的 姓名 。 


现在 ， 我 们 先 对 问题 进行 分 析 ， 从 课程 表 的 数据 结构 可 以 看 出 : 
我 们 需要 找 出 “C Language” 这 门 课 的 课程 号 ， 然 后 找 对 应 “Cpno”( 此 
课程 号 的 课程 ) ， 最 后 找 出 修了 此 门 课程 的 学 生 ， 并 输出 学 生 的 姓 
名 o 

Pig Latin 语 言 文 持 内 套 的 操作 ， 所 以 在 这 一 部 分 ， 我 们 使 用 骨 套 
语句 来 对 数据 进行 操作 ， 这 样 能 够 使 Pig Latin 语 言 的 书写 更 加 简便 ， 
更 加 有 便于 理解 。 因 为 嵌 套 的 语句 能 够 使 程序 的 执行 更 加 有 层次 感 ， 
使 我 们 理解 起 来 一 目 了 然 。 


为 了 让 大 家 便于 理解 ， 我 们 给 出 单 步 的 操作 : 


A=load'/pigTmp/Student'using PigStorage (': ') as (Sno: chararray, 
Sname: chararra 

y, Ssex: chararray, Sage: int, Sdept: chararray) ; 

B=load'/pigTmp/SC'using PigStorage (', ') as (Sno: chararray, 
Cno: chararray, Grade: int) ; 

C=load'/pigTmp/Course'using PigStorage (', ') as (Cno: chararray, 
Cname: chararray, 

Cpno: chararray, Ccredit: int) ; 

D=load'/pigTmp/Course'using PigStorage (', ') as (Cno: chararray, 
Cname: chararray, 

Cpno: chararray, Ccredit: int) ; 

E=Join C By Cpno, D By Cno; --i#f22X4 

F=Filter E By D: Cname=='C Language'; - -过滤 出 先 修 课 名 为 C Language 的 
记录 


TH 


G=Foreach F Generate C: Cno; - - 找 出 先 修 课 为 C Language 课 程 的 课程 号 
H=Join G By Cno, B By Cno; - -选课 表 和 C Language 课 程 的 课程 号 做 连接 操作 
I=Join H By Sno, A By Sno; - -选课 表 与 目标 课程 号 连接 结果 与 学 生 表 作 连接 操 


作 

J=Foreach I Generate Sname- -输出 结果 

可 以 明显 地 看 出 ， 上 面 的 操作 十 分 地 楷 琐 ， 下 面 我 们 将 上 面 的 语 
FHKE © 
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TH 


E=Join C By Cpno, D By Cno; -- 连 接 数 


F=Filter E By D: Cname=='C Language'; - -过滤 出 先 修 课 名 为 C Language 的 
记录 
我 们 可 以 这 样 写 


F=Filter (Join C By Cpno, D By Cno; ) By D: Cname=='C Language'; - 
-过 滤 出 先 修 课 名 为 C Language 的 记录 


所 以 ， 这 一 问题 可 以 按 下 面 的 Pig Latin 语 句 来 进行 操作 : 


A=load'/pigTmp/Student'using PigStorage (': ') as (Sno: chararray, 
Sname: chararra 

y, Ssex: chararray, Sage: int, Sdept: chararray) ; 

B=load'/pigTmp/SC'using PigStorage (', ') as (Sno: chararray, 
Cno: chararray, Grade: int) ; 

C=load'/pigTmp/Course'using PigStorage (', ') as (Cno: chararray, 
Cname: chararray, 

Cpno: chararray, Ccredit: int) ; 

D=load'/pigTmp/Course'using PigStorage (', ') as (Cno: chararray, 
Cname: chararray, 

Cpno: chararray, Ccredit: int) ; 

E=Foreach (Filter (Join C By Cpno, D By Cno) By D: Cname=='C 
Language' ) 

Generate C: Cno; 

F=Foreach (Join (Join B By Cno, E By Cno) By Sno, A By Sno) 
Generate Sname; 


当然 ， 如 果 想 一 步 执行 完 也 是 可 以 的 ， 只 需要 将 上 面 操作 的 后 两 
步 再 能 套 起 来 即 可 : 


A=load'/pigTmp/Student'using PigStorage (': ') as (Sno: chararray, 
Sname: chararra 

y, Ssex: chararray, Sage: int, Sdept: chararray) ; 

B=load'/pigTmp/SC'using PigStorage (', ') as (Sno: chararray, 
Cno: chararray, Grade: int) ; 

C=load'/pigTmp/Course'using PigStorage (', ') as (Cno: chararray, 
Cname: chararray, 

Cpno: chararray, Ccredit: int) ; 

D=load'/pigTmp/Course'using PigStorage (', ') as (Cno: chararray, 
Cname: chararray, 

Cpno: chararray, Ccredit: int) ; 

E=Foreach (Join (Join B By Cno, (Foreach (Filter (Join C By Cpno, 
D By Cno) By 

D: Cname=='C Language') Generate C: Cno) By Cno) By Sno, A By 
Sno) Generate Sname; 


下 面 ， 我 们 使 用 DUMP 关 键 字 来 分 别 对 上 面 三 种 方式 查看 下 运行 
结果 ， 发 现 输出 结果 是 完全 相同 的 ， 如 图 14-9 所 示 : 


图 14-9 修了 先 修 课 为 “C Language” 的 学 生 


14.6 ”市 通 过 一 个 人 简单 的 例子 ， 让 用 户 了 解 如 何在 Local 模 式 和 
MapReduce 模 式 下 对 数据 进行 操作 。14.7 市 则 进一步 通过 一 组 复杂 的 
例子 ， 对 如 何 使 用 Pig Latin 语 言 进行 复杂 的 操作 做 了 更 深入 的 介绍 。 


从 14.6 和 14.7 这 两 蔬 实 例 操作 中 ， 我 们 可 以 看 出 ，Pig Latin 语 言 更 
擅长 对 海量 数据 进行 分 析 。 另 外 ，Pig Latin 语 言 还 支持 藤 套 的 操作 ， 
这 样 可 以 让 Pig Latin 语 言 编 写 的 程序 更 加 易于 理解 。 


鉴于 Pig Latin 语 言 的 如 上 特点 ， 我 们 可 以 使 用 Pig 于 对 诸如 日 志 等 
规则 的 、 海 量 的 并 且 需 要 定期 维护 的 数据 进行 分 析 处 理 操作 ， 这 样 可 
以 大 大 地 提高 系统 的 工作 效率 。 


14.8 ”本 章 小 结 


在 本 章 中 我 们 通过 对 Pig 的 实际 操作 ， 让 大 家 对 Pig 有 了 一 个 新 的 
认识 。 相 信 读 完 本 章 之 后 ， 大 家 可 以 使 用 Pig 进 行 答 单 地 数据 处 理 了 。 
Pig Latin 语 言 不 但 自身 提供 了 很 多 的 函数 供用 户 使 用 ， 而 且 大 家 可 以 
根据 实际 情况 结合 Java 和 Pig Latin 语 言 编写 具有 特定 功能 的 函数 。 这 体 
现 了 Pig 的 可 扩展 性 和 强大 的 功能 。 在 使 用 Pig 的 过 程 中 ， 还 有 很 多 技 
巧 需要 掌握 ， 这 一 点 大 家 可 以 在 实际 操作 中 慢 慢 地 体会 。 另 外 ，Pig 还 
处 于 完善 阶段 。 从 0.5.0 版 到 0.10.0 版 的 发 展 过 程 中 ，Pig 进 行 了 很 多 调 
整 ， 这 离 不 开 广 大 开发 者 的 支持 和 帮助 。 希 望 大 家 能 够 通过 对 Pig 的 使 
FA, [se] Apache Hadoop 页 献上 自己 的 一 份 力 量 ! 
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ZooKeeper 锁 服务 

使 用 ZooKeeper 创 建 应 用 程序 


BooKeeper 


本 章 小 结 


15.1 ZooKeepertil JT 


ZooKeeper 是 一 个 为 分 布 式 应 用 所 设计 的 开源 协调 服务 。 它 可 以 为 
用 户 提供 同步 、 配 置 管理 、 分 组 和 命名 等 服务 。 用 户 可 以 使 用 
ZooKeeper 提 供 的 接口 方便 地 实现 一 致 性 、 组 管理 、leader 选 举 及 某 些 
协议 。ZooKeeper 意 欲 提供 一 个 易于 编程 的 环境 ， 所 以 它 的 文件 系统 使 
用 了 我 们 所 熟悉 的 目录 树 结构 。ZooKeeper 是 使 用 Java 编 写 的 ， 但 是 它 
支持 Java 和 C 两 种 编程 语言 接口 。 


众所周知 ， 协 调 服 务 非常 容易 出 错 ， 而 且 很 难 从 故障 中 恢复 ， 例 
如 ， 协 调 服务 很 容易 处 于 竞 态 以 至 于 出 现 死 锁 。ZooKeeper 的 设计 目的 
征 为 了 减轻 分 布 式 应 用 程序 所 承担 的 协调 任务 。 


15.1.1 ”ZooKeeper 的 设计 目标 


众所周知 ， 分 布 式 环 境 下 的 程序 和 活动 为 了 达到 协调 一 致 的 目 
的 ， 通 常 具 有 某 些 共同 的 特点 ， 例 如 ， 简 单 性 、 有 序 性 等 。ZooKeeper 
目标 的 实现 上 有 目 身 的 特点 ， 并 且 具 有 其 独特 的 优势 。 下 
面 我 们 将 简 述 ZooKeeper 的 设计 目标 。 


ZooKeeper 人 允许 分 布 式 的 进程 通过 共 至 体系 的 命名 空间 来 进行 协 
调 ， 这 个 命名 空间 的 组 织 与 标准 的 文件 系统 非常 相似， 它 是 由 一 些 数 
据 寄存 器 组 成 的 。 用 ZooKeeper 的 语法 来 说 ， 这 些 寄存 器 应 称 为 
Znode， 它 们 和 文件 及 目录 非常 相似 。 典 型 的 文件 系统 是 基于 存储 设 
备 的 ， 然 而 ，ZooKeeper 的 数据 却 是 存放 在 内 存 当 中 的 ， 这 束 意 味 着 
ZooKeeperF] 以 达到 一 个 高 的 否 吐 量 ， 并 且 低 延迟 。ZooKeeper 的 实现 
非常 重视 高 性 能 、 高 可 靠 性 ， 以 及 严格 的 有 序 访 问 。 


ZooKeeper 性 能 上 的 特点 决定 了 它 能 够 用 在 大 型 的 、 分 布 式 的 系统 
当中 。 从 可 靠 性 方面 来 说 ， 它 并 不 会 因为 一 个 地 点 的 错误 而 朋 吝 。 除 
此 之 外 ， 它 严格 的 序列 访问 控制 意味 着 复杂 的 控制 原 语 可 以 应 用 在 客 
户 端 上 。 


(2) 健壮 性 


组 成 ZooKeeper 服 务 的 服务 器 必须 互相 知道 其 他 服务 如 的 存在 。 它 
们 维护 着 一 个 处 于 内 存 中 的 状态 镜像 ， 以 及 一 个 位 于 存储 右 中 的 交换 
日 志和 快照 。 只 要 大 部 分 的 服务 器 可 用 ， 那 么 ZooKeeper 服 务 束 可 用 。 


如 果 客 户 端 连 接 到 单个 ZooKeeper 服 务 器 上 ， 那 么 这 个 客户 端 就 管 
理 着 一 个 TCP 连 搂 ， 并 且 通 过 这 个 TCP 连 接 来 发 送 请 求 、 获 得 啊 应 、 
获取 检测 事件 ， 以 及 发 送 心 跳 。 如 采 连 接 到 服务 器 上 的 TCP 连 接 断 
开 ， 客 户 端 将 连接 到 其 他 的 服务 器 上 。 


(3) 有 序 性 


ZooKeeper 可 以 为 每 一 次 更 新 操作 赋予 一 个 版 本 号 ， 并 且 此 版 本 号 
征 全 局 有 序 的， 不 存在 重复 的 情况 。ZooKeeper 所 提供 的 很 多 服务 也 是 
基于 此 有 序 性 的 特点 来 完成 。 


(4) 速度 优势 


它 在 读 取 主 要 负载 时 尤其 快 。ZooKeeper 应 用 程序 在 上 千 台 机 喜 的 
斑点 上 运行 。 另 外 ， 需 要 注意 的 是 ZooKeeper 有 这 样 一 个 特点 : 当 读 工 


作 比 写 工 作 更 多 的 时 候 ， 它 执行 的 性 能 会 更 好 。 


除 此 之 外 ，ZooKeeper 还 具有 原子 性 、 单 系统 镜像 、 可 靠 性 的 及 时 


效 性 等 符 上 后 。 


15.1.2 ”数据 模型 和 层次 命名 空间 


ZooKeeper 提 供 的 命名 空间 与 标准 的 文件 系统 非常 相似 。 它 的 名 称 
征 由 通过 人 冬 线 分 隔 的 路 径 名 序列 所 组 成 的 。 ZooKeeper 中 的 每 一 个 节点 
了 是 通过 路 径 来 识别 的 。 


TNS 


图 15-1 是 Zookeeper 中 市 点 的 数据 模型 ， 这 种 树 形 结构 的 命名 空间 
操作 方便 且 易 于 理解 。 


ZK _2/DT 1 7K_2/NT_2 7K_2/DT 3 


15-1 ZooKeeper 的 层次 命名 空间 


15.1.3 ZooKeeper FAY Ts KAIME T R, 


通过 上 一 节 的 内 容 ， 大 家 可 以 了 解 到 在 ZooKeeper 中 存在 痢 世 点 的 
概念 ， 同 时 也 知道 了 这 些 市 点 是 通过 像 树 一 样 的 结构 来 进行 维护 的 ， 
并 且 每 一 个 节点 通过 路 径 来 标识 及 访问 。 除 此 之 外 ， 每 一 个 世 点 还 拥 
有 目 身 的 一 些 信息 ， 包 括 : 数据 、 数 据 长 度 、 创 建 时 间 、 修 改 时 间 
等 。 从 节点 的 这 些 特性 ( 既 含 有 数据 ， 又 通过 路 径 来 标识 ) 可 以 看 
出 ， 它 既 可 以 被 看 作 是 一 个 文件 ， 又 可 以 被 看 作 是 一 个 目录 ， 因 为 它 
同时 具有 二 者 的 特点 。 为 了 便于 表达 ， 后 面 我 们 将 使 用 Znode 来 表示 


所 讨论 的 ZooKeeper 节 点 。 


具体 地 说 ，Znode 维 护 着 数据 、 访 问 控制 列表 (access control list, 
ACL) 、 时 间 惟 等 包含 交换 版 本 号 信息 的 数据 结构 ， 通 过 对 这 些 数 据 
的 管理 使 缓存 中 的 数据 生效 ， 并 且 执 行 协调 更 新 操作 。 每 当 Znode 中 
的 数据 更 新 它 所 维护 的 版 本 号 束 会 增加 ， 这 非 第 类 似 于 数据 库 中 计数 
ASPT [A] AMAIA TE TT IN ° 


另外 Znode 还 具有 原子 性 操作 的 特点 : 在 命名 空间 中 ， 每 一 个 
Znode 的 数据 将 被 原子 地 读 写 。 读 操作 将 读 取 与 Znode 相 关 的 所 有 数 
据 ， 写 操作 将 蔡 换 挥 所 有 的 数据 。 除 此 之 外 ， 每 一 个 节点 都 有 一 个 访 
问 挥 制 列表 ， 这 个 访问 控制 列表 规定 了 用 户 操 作 的 权限 。 


ZooKeeper 中 同样 存在 临时 和 节点。 这 些 节 点 与 session 同 时 存在 ， 当 
session 生 命 周 期 结束 时 ， 这 些 临 时 节点 也 将 被 删除 。 临 时 节点 在 某 些 
场合 也 发 挥 厦 非 常 重要 的 作用 ， 例 如 Leader 选 举 、 锁 服务 


15.1.4 ”ZooKeeper 的 应 用 


ZooKeeper 成 功 地 应 用 于 大 量 的 工业 程序 中 。 它 在 Yahoo! 被 用 作 
雅虎 消息 代理 (Yahoo! Message Broker) 的 协调 和 故障 恢复 服务 。 雅 
虎 消息 代理 是 一 个 高 度 可 扩展 的 发 布 -订阅 系统 ， 它 管理 着 上 千 的 总 联 
机 程序 和 信息 控制 系统 (Total On-line Program and Information Control 
System, TOPICS) ， 男 外 它 还 用 于 为 Yahoo ! crawler 获 取 服 务 并 进行 故 
障 维护 。 除 此 之 外 ， 一 些 Yahoo! 广告 系统 也 同样 使 用 ZooKeeper 来 实 
现 可 靠 的 服务 。 


15.2 ”ZooKeeper 的 安装 和 配置 


在 这 一 节 中 ， 我 们 将 首 移 同 大 家 介绍 如 何在 不 同 的 环境 下 安装 并 
配置 ZooKeeper 服 务 ， 然 后 具体 介绍 如 何 通过 ZooKeeper 配 置 文件 对 
ZooKeeperj 进 行 配置 管理 ， 最 后 癌 大 家 介绍 如 何在 不 同 环境 下 局 动 


ZooKeeper 服 务 。 
15.2.1 “42ZooKeeper 


ZooKeeper 有 不 同 的 运行 环境 ， 包 括 : 单机 环境 、 集 群 环境 和 集群 
伪 分 布 环 境 。 这 里 ， 我 们 将 分 别 介绍 不 同 环境 下 如 何 安装 ZooKeeper 服 
务 ， 并 简单 介绍 它们 的 区 别 与 联系 。 


1. 系 统 要 求 
下 面 将 说 明 安 装 ZooKeeper 对 系统 和 软件 的 要 求 。 
(1) 支持 的 平台 


ZooKeeper 可 以 在 不 同 的 系统 上 运行 ， 表 15-1 是 关于 这 方面 的 一 个 
简单 说 明 。 


% 15-1 Zookeeper 支持 的 平台 


a 统 可 用 作 的 平台 是 否 支 持 服务 器 7 客户 晓 
GNU/Linux Whe 35 eh AEP 
Sun Solaris Ne IS ie AE A ii 
FreeBSD (Hy ATE Se Pil 
Win32 Wht Fe Be AA FE E 
MacOSX 服务 器 和 客户 端 


(2) 软件 要 求 


首先 ， 安 装 ZooKeeper 和 需要 Java 的 支持 ， 并 且 要 求 1.6 以 上 的 版 本 。 
此 外 ， 对 于 集群 的 安装 ，ZooKeeper 需 要 至 少 三 个 节点 ， 我 们 建议 将 三 
个 节 扣 部 署 在 不 同 的 机 颖 上 。 例 如 ，Yahoo! 将 ZooKeeper 部 署 在 Red 
Hat Linux 机 峰 上 ， 每 台 机 如 使 用 多 核 CPU，2G 的 内 存 和 80G 的 IDE 便 
o 


JDK 的 安装 已 经 在 前 面 章节 中 有 过 详细 介绍 ， 这 里 不 再 著述 。 


注意 ”由 于 频繁 的 换 入 换 出 操作 对 系统 的 性 能 有 较 大 的 影响 ， 为 
了 避免 这 种 情况 的 发 生 ， 建 议 将 Java 的 堆 大 小 设置 为 合适 的 值 。 一 般 
说 来 ， 所 设置 的 Java 堆 大 小 的 值 不 应 大 于 实际 可 用 的 内 存 值 。 对 于 具 
体 的 值 的 大 小 ， 可 以 通过 负载 测试 来 决定 。 例 如 ， 建 议 将 4GB 内 存 的 
机 器 的 Java 堆 大 小 设置 为 3GB 。 


系统 中 ， 要 求 大 多 数 机 融 处 于 可 用 状态 。 如 果 想 要 集群 能 够 忍受 
m 侣 机 器 的 故障 ， 那 么 整个 集群 至 少 需 要 2m+1 人 台 机 器 。 因 为 此 时 剩余 


的 m+1 台 才能 构成 系统 的 一 个 大 多 数 集 。 例 如 ， 对 于 拥有 三 台 机 融 的 
集群 ， 系 统 能 够 在 一 台 机 器 发 生 故 障 的 情况 下 仍然 提供 服务 。 


男 外 ， 最 好 使 用 奇数 台 的 机 器 。 例 如 ， 拥 有 四 人 台 机 右 的 ZooKeeper 
只 能 处 理 一 人 台 机 器 的 故障 ， 如 果 两 台 机 絮 发 生 故 障 ， 余 下 的 两 全 机 器 
并 不 能 组 成 一 个 可 用 的 ZooKeeper 大 多 数 集 (三 台 机 器 才能 构成 四 台 机 
器 的 大 多 数 集 ) ; 而 如 果 ZooKeeper 拥 有 五 台 机 器 ， 那 么 它 就 能 处 理 两 
台 机 器 的 故障 了 。 


2. 单 机 下 安装 ZooKeeper 


(1) ZooKeeper 的 下 载 


如 果 大 家 是 第 一 次 使 用 ZooKeeper， 那 么 我 们 建议 首先 党 试 在 单机 
模式 下 配置 ZooKeeper 服 务 器 。 因 为 ， 在 单机 模式 下 配置 和 使 用 相对 来 
说 都 要 简单 得 多 ， 并 且 易 于 帮助 大 家 理解 ZooKeeper 的 工作 原理 。 这 对 
进一步 学 习 使 用 ZooKeeper 会 有 很 大 的 帮助 。 


从 Apache 官 方 网 站 下 载 一 个 ZooKeeper 的 最 新 稳定 版 本 ， 网 址 如 
F: 


http: //hadoop.apache.org/zookeeper/releases.html 


(EAA Ri, WREE, BENS a 
不 少 的 时 间 ， 比 如 : 


http: //labs.renren.com/apache-mirror/hadoop/zookeeper/ 


(2) ZooKeeper 的 安装 


为 了 今后 操作 方便 ， 我们 需要 对 ZooKeeper 的 环境 变量 进行 配置 ， 
方法 如 下 ， 在 /etc/profile 文 件 中 加 入 如 下 的 内 容 : 


#Set ZooKeeper Enviroment 
export ZOOKEEPER_HOME=$HADOOP_HOME/zookeeper -3.4.3 
export PATH=$PATH: $ZOOKEEPER_HOME/bin: $ZOOKEEPER_HOME/conf 


ZooKeeper 服 务 器 包含 在 单个 JAR 文 件 中， 安装 此 服务 需要 用 户 创 
建 一 个 配置 文档 ， 并 对 其 进行 设置 。 我 们 在 ZooKeeper-*.*.* 目 录 (本 
书 以 当前 ZooKeeper 的 最 新 版 3.4.3 为 例 ， 故 在 下 文中 此 “ZooKeeper- 
*.*.*» 都 将 写 为 “ZooKeeper-3.4.3”) 的 conf 文 件 夹 下 创建 一 个 zoo.cfg 文 
件 ， 它 包含 如 下 的 内 容 : 

tickTime=2000 


dataDir=$HADOOP_HOME/zookeeper -3.4.3/data 
clientPort=2181 


在 这 个 文件 中 ，$HADOOP_HOME 代 表 Hadoop 的 安装 目录 ， 为 了 
使 用 的 方便 ， 我 们 将 其 放 在 Hadoop 安 装 目 孙 下 。 需 要 注意 的 是 ， 
ZooKeeper 的 运行 并 不 依赖 于 Hadoop， 也 不 依赖 于 HBase 或 其 它 与 
Hadoop 相 关 的 项 目 。 此 外 ， 我 们 需要 指定 dataDir 的 值 ， 它 指向 了 一 个 
目 孙 ， 这 个 目录 在 开始 的 时 候 应 为 空 。 下 面 是 每 个 参数 的 含义 : 


tickTime: ÆRET, WSMNAH He CHARTER DP, Be) 
的 session 过 期 时 间 为 两 倍 的 tickTime 。 


dataDir: 存储 内 存 中 数据 库 快照 的 位 置 ， 如 采 不 设置 参数 ， 更 新 
事务 的 日 志 将 被 存储 到 默认 位 置 。 


clientPort 监听 客户 端 连接 的 端口 。 


使 用 单机 模式 时 大 家 需要 注意 : 这 种 配置 方式 下 没有 ZooKeeper 副 
本 ， 所 以 如 果 ZooKeeper 服 务 器 出 现 故障 ，ZooKeeper 服 务 将 会 停止 。 


代码 清单 15-1 是 我 们 根据 目 身 情况 所 设置 的 ZooKeeper 配 置 文档 : 


Zoo.cfg。 


代码 清单 15-1 ZooKeeper 配 置 文档 zoo.cfg 


#The number of milliseconds of each tick 
tickTime=2000 

#the directory where the snapshot is stored. 
dataDir=$HADOOP_HOME/zookeeper -3.4.3/data 
#the port at which the clients will connect 
clientPort=2181 


3. 在 集群 下 安装 ZooKeeper 


为 了 获得 可 靠 鸭 ZooKeeper 服 务 ， 用 户 应 该 在 一 个 集群 上 部 署 
ZooKeeper。 只 要 集群 上 大 多 数 的 ZooKeeper 服 务 局 动 了 ， 那 么 总 的 
ZooKeeper 服 务 将 是 可 用 的 。 


这 之 后 的 操作 和 单机 模式 的 安装 类 似 ， 我 们 同样 需要 对 Java 环 境 
进行 设置 ， 下 载 最 新 的 ZooKeeper 稳 定 版 本 并 配置 相应 的 环境 变量 。 
台 机 器 上 conf/zoo.cfg 配 置 文 件 的 参数 设置 相同 ， 可 参考 代码 清单 15-2 
的 配置 。 


代码 清单 15-2 ”zoo.cfg 中 的 参数 设置 


#The number of milliseconds of each tick 
tickTime=2000 

#The number of ticks that the initial 
#synchronization phase can take 
initLimit=10 

#The number of ticks that can pass between 
#sending a request and getting an acknowledgement 
syncLimit=5 

#the port at which the clients will connect 
clientPort=2181 

#the directory where the snapshot is stored. 
dataDir=$HADOOP_HOME/zookeeper -3.4.3/data 
#the location of the log file 
dataLogDir=$HADOOP_HOME/zookeeper -3.4.3/1l0g 
server .1=Z001: 2888: 3888 

server .2=Z002: 2888: 3888 

server .3=Z003: 2888: 3888 


更 多 关于 ZooKeeper 参 数 的 设置 请 参看 15.2.2 节 。“server.id=host: 
port: port.” 标 识 了 不 同 的 ZooKeeper 服 务 器 的 配置 。 每 台 服务 器 作为 集 
群 的 一 部 分 应 该 知道 ensemble H! 中 的 其 他 机 器 ， 用 户 可 以 
从 “server.id=host: port: port.” 中 读 取 相关 的 信息 。 参 数 中 host 和 port 比 
较 直观 。id 标 识 的 是 不 同 的 服务 器 ， 在 服务 器 的 data (dataDir 参 数 所 指 
定 的 目录 ) 目录 下 创建 一 个 文件 名 为 myid 的 文件 ， 这 个 文件 中 仅 合 一 


行 的 内 容 ， 它 所 指定 的 是 自身 的 id 值 。 比 如 ， 服 务 器 “1 应 该 在 myid 文 
件 中 写 入 “1”。 而 且 这 个 id 值 必须 是 ensemble 中 唯一 的 ， 大 小 在 1 到 255 
之 间 。 在 这 一 行 配置 中 ， 第 一 个 端口 (port) 是 从 (follower) 机 器 连 
接 到 主 (leader) 机 器 的 端口 ， 第 二 个 是 用 来 进行 leader 选 举 的 端口 。 
在 这 个 例子 中 ， 每 台 机 器 使 用 三 个 端口 ， 分 别 是 : clientPort, 2181; 


port, 2888; port, 3888 ° 


笔者 在 拥有 三 台 机 器 的 Hadoop 集 群 上 测试 了 ZooKeeper 的 安装 ， 
如 上 所 示 ， 代 人 码 清单 15-2 束 是 根据 目 身 情况 所 设置 的 ZooKeeper 配 置 文 
档 。 


清单 中 的 zo01、zo02 及 zo03 分 别 为 三 台 机 妖 的 主机 名 ， 该 项 需要 
在 Ubuntu 的 host 环 境 中 进行 设置 ， 这 部 分 内 容 不 是 本 书 的 重点 ， 不 再 
警 述 。 大 家 可 以 查阅 Ubuntu 以 及 Linux 的 相关 资料 。 


4. 在 集群 伪 分 布 模式 下 安装 ZooKeeper 


通过 前 面 的 章节 ， 读 者 了 解 到 Hadoop 可 以 在 伪 分 布 模式 下 模拟 分 
布 式 Hadoop 的 运行 。 与 它 不 同 的 是 ，ZooKeeper 不 但 可 以 在 单机 上 运 
行 单 机 模式 ZooKeeper， 而 且 可 以 在 单机 上 模拟 集群 模式 ZooKeeper 的 
运行 ， 也 就 古 将 不 同 的 广 点 运行 在 同一 合 机 器 上 。 我 们 索性 将 其 称 之 
为 “集群 伪 分 布 模式 ”， 以 区 别 “ 单 机 模式 ”。 我 们 知道 ， 伪 分 布 模式 下 
Hadoop 的 操作 和 分 布 式 模式 下 有 着 很 大 的 不 同 ， 但 是 在 集群 伪 分 布 模 


式 下 对 ZooKeeper 的 操作 却 和 集群 模式 下 没有 本 质 的 区 别 。 显 然 ， 集 群 
伪 分 布 模式 为 我 们 体验 ZooKeeper 和 做 一 些 尝试 性 的 实验 提供 了 很 大 的 
便利 。 比 如 ， 我 们 在 实验 的 时 候 ， 可 以 先 使 用 少量 数据 在 集群 伪 分 布 
模式 下 进行 测试 。 当 测试 可 行 的 时 候 ， 再 将 其 移植 到 集群 模式 下 进行 
真实 的 数据 实验 。 这 样 不 但 保证 了 它 的 可 行 性 ， 同 时 大 大 提高 了 实验 
的 效率 。 


那么 ， 如 何 配置 ZooKeeper 的 集群 伪 分 布 模式 呢 ? 其 实 很 简单 。 用 
心 的 读者 可 以 发 现 ， 在 ZooKeeper 配 置 文档 中 ，clientPort 参 数 是 用 来 设 
置 客户 端 连接 ZooKeeper 的 端口 。 在 server.1=IP1: 2887: 3887 中 ，IP1 
虽 示 的 是 组 成 ZooKeeper 服 务 的 机 恬 了 下 地 址 ，2887 为 进行 leader 选 举 的 
问 口 ，3887 是 组 成 ZooKeeper 服 务 的 机 帮 之 间 的 通信 端口 。 在 集群 伪 分 
布 模式 下 我 们 使 用 每 个 配置 文档 模拟 一 台 机 右 ， 也 就 是 说 ， 需 要 在 单 
台 机 器 上 运行 多 个 ZooKeeper 实 例 。 但 是 ， 必 须要 保证 各 个 配置 文档 的 
各 个 端口 不 能 冲突 。 


下 面 是 我 们 所 配置 的 集群 伪 分 布 模式 ， 分 别 通 过 zoo1.cfg、 
z002.cfg、zoo3.cfg 来 模拟 有 三 台 机 絮 的 ZooKeeper 集 群 。 详 见 代 码 清 单 


15-3 至 清单 15-5。 
代码 清单 15-3 zool.cfg 


#The number of milliseconds of each tick 
tickTime=2000 


#The number of ticks that the initial 
#synchronization phase can take 

initLimit=10 

#The number of ticks that can pass between 
#sending a request and getting an acknowledgement 
syncLimit=5 

#the directory where the snapshot is stored. 
dataDir=$HADOOP_HOME/zookeeper -3.4.3/d_1 

#the port at which the clients will connect 
clientPort=2181 

#the location of the log file 
dataLogDir=$HADOOP_HOME/zookeeper -3.4.3/logs_1 
server .1=localhost: 2887: 3887 

server .2=localhost: 2888: 3888 

server .3=localhost: 2889: 3889 


代码 清单 15-4 zoo2.cfg 


#The number of milliseconds of each tick 
tickTime=2000 

#The number of ticks that the initial 
#synchronization phase can take 

initLimit=10 

#The number of ticks that can pass between 
#sending a request and getting an acknowledgement 
syncLimit=5 

#the directory where the snapshot is stored. 
dataDir=$HADOOP_HOME/zookeeper -3.4.3/d_2 

#the port at which the clients will connect 
clientPort=2182 

#the location of the log file 
dataLogDir=$HADOOP_HOME/zookeeper -3.4.3/logs_2 
server .1=localhost: 2887: 3887 

server .2=localhost: 2888: 3888 

server .3=localhost: 2889: 3889 


代码 清单 15-5 zoo3.cfg 


#The number of milliseconds of each tick 
tickTime=2000 

#The number of ticks that the initial 
#synchronization phase can take 


initLimit=10 

#The number of ticks that can pass between 
#sending a request and getting an acknowledgement 
syncLimit=5 

#the directory where the snapshot is stored. 
dataDir=$HADOOP_HOME/zookeeper -3.4.3/d_3 

#the port at which the clients will connect 
clientPort=2183 

#the location of the log file 
dataLogDir=$HADOOP_HOME/zookeeper -3.4.3/logs_3 
server .1=localhost: 2887: 3887 

server .2=localhost: 2888: 3888 

server .3=localhost: 2889: 3889 
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dataDir 也 不 同 。 男 外 ， 不 要 忘记 在 dataDir 所 对 应 的 目录 中 创建 myid 文 
件 来 指定 对 应 的 ZooKeeper 服 务 器 实例 。 


[1] 全 体 ， 相 对 于 大 多 数 集 (quorum) 而 言 。 


15.2.2 fit’ ZooKeeper 


ZooKeeper 的 功能 特性 是 通过 ZooKeeper 配 置 文件 来 进行 控制 管理 
4zoo.cfg 配 置 文件 ) 的 。 这 样 的 设计 其 实 有 其 自身 的 原因 。 通 过 前 面 
对 ZooKeeper 的 配置 可 以 看 出 ， 在 对 ZooKeeper 集 群 进行 配置 的 时 候 ， 
它 的 配置 文档 是 完全 相同 的 (对 于 集群 伪 分 布 模式 来 说 ， 只 有 很 少 的 
部 分 是 不 同 的 ) 。 这 样 的 配置 方式 使 得 在 部 署 ZooKeeper 服 务 的 时 候 非 
党 方便 。 如 采 服 务 右 使 用 不 同 的 配置 文件 ， 必 须要 确保 不 同 配置 文件 
中 的 服务 器 列表 相 匹 配 。 


在 设置 ZooKeeper 配 置 文档 的 时 候 ， 某 些 参数 是 可 选 的 ， 但 是 某 些 
参数 旦 必需 的 。 这 些 必需 的 参数 吏 构 成 了 ZooKeeper 配 置 文档 的 最 低 配 
置 要 求 。 男 外 ， 如 果 和 需要 对 ZooKeeper 进 行 更 详细 的 配置 ， 大 家 可 以 参 
考 下 面 将 要 讲述 的 内 容 。 


1. 最 低 配 置 


下 面 是 在 最 低 配 置 要 求 中 必须 配置 的 参数 : 


1) clientPort: 监听 客户 端 连 接 的 端口 。 


2) dataDir: 存储 内 存 中 数据 库 快 照 的 位 置 。 
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备 上 ， 那 么 将 会 在 很 大 程度 上 影响 系统 的 性 能 。 


3) tickTime: 基本 事件 单元 ， 以 毫秒 为 单位 ， 用 来 控制 心跳 和 超 
时 ， 默 认 情 况 下 最 小 的 会 话 超 时 时 间 为 两 倍 的 tickTime 。 


2. 高 级 配置 


下 面 是 高 级 配置 要 求 中 可 选 的 配置 参数 ， 用 户 可 以 使 用 下 面 的 参 
数 来 更 好 地 规定 ZooKeeper 的 行为 : 


(1) dataLogDir 


这 个 操作 让 管理 机 媳 把 事务 日 志 写 入 “dataLogDir" 所 指定 的 目录 
中 ， 而 不 是 “dataDir" 所 指定 的 目 示 。 这 将 允许 使 用 一 个 专用 的 日 志 设 
备 ， 并 且 帮 助 我 们 避免 日 志和 快照 之 间 的 竞争 。 配 置 如 下 : 


#the location of the log file 
dataLogDir=/root/hadoop-0.20.2/zookeeper -3.4.3/log/data_log 


(2) maxClientCnxns 


这 个 操作 将 限制 连接 到 ZooKeeper 的 客户 端的 数量 ， 并 且 限 制 并 发 
连接 的 数量 ， 它 通过 IP 来 区 分 不 同 的 客户 端 。 此 配置 选项 可 以 用 来 阻 


止 某 些 类 别 的 Dos 攻 击 。 将 它 设 置 为 0 或 忽略 而 不 进行 设置 将 会 取消 对 
并 发 连接 的 限制 。 


例如 ， 此 时 我 们 将 maxClientCnxns 的 值 设 置 为 1， 如 下 所 示 : 


#set maxClientCnxns 
maxClientCnxns=1 


启动 ZooKeeper 之 后 ， 首 移 用 一 个 客户 端 连 接 到 ZooKeeper 服 务 
之 上 。 之 后 如 果 有 第 二 个 客户 端 党 试 对 ZooKeeper 进 行 连接 ， 或 者 有 革 
些 隐 式 的 对 客户 端的 连接 操作 ， 将 会 触发 ZooKeeper 的 上 壕 配 置 。 系 统 
会 提示 相关 信息 ， 如 图 15-2 所 示 。 


[zk: loc a 21811 seth ED! 6) nah -61- 18 08:53:52,748 - WARN [HIGServerCxn, 
Fac to ory :6 6/8 .8,6 2181: W10ServerCren$Fact oryaz 46] - Too many commections 


2611-81-18 68:54:65,792 - WARN [NIOServerCxn.Fa y:8.6.6.8/6.0.8.0:2181:NI0Se | 
rvercnansfacto rye. 246) - Too many ac gr 7127.06.01 -~ max is 1 


15-2 ZooKeeper maxClientCnxns 异 和 常 


(3) minSessionTimeout#maxSessionTimeout 


即 最 小 的 会 话 超时 时 间 和 最 大 的 会 话 超时 时 间 。 在 默认 情况 下 ， 
最 小 的 会 话 超时 时 间 为 2 倍 的 tickTme 时 间 ， 最 大 的 会 话 超 时 时 间 为 20 
们 的 会 话 超 时 时 间 。 系 统 局 动 时 会 显示 相应 的 信息 ， 如 图 15-3 所 示 。 


图 15-3 默认 会 话 超时 时 间 


从 上 图 中 可 以 看 出 ，minSessionTimeout 及 maxSessionTimeout 的 值 
均 为 -1。 现 在 我 们 来 设置 系统 的 最 小 和 最 大 的 会 话 超时 时 间 ， 如 下 所 
JR: 

#set minSessionTimeout 
minSessionTimeout=1000 


#set maxSessionTImeout 
maxSessionTimeout=10000 


在 配置 minSessionTmeout 及 maxSessionTimeout 的 值 时 需要 注意 ， 
如 果 将 此 值 设 置 得 太 小 的 话 ， 会 话 很 可 能 刚刚 建立 便 由 于 超时 而 不 得 
不 退出 。 一 般 情 况 下 ， 不 能 将 此 值 设 置 得 比 tickTime 的 值 还 小 。 


3. 集 群 配 置 


(1) initLimit 


此 配置 表示 ， 人 允许 follower (相对 于 leader 而 言 的 “客户 端 ”) 连接 
并 同步 到 leader 的 初始 化 连接 时 间 ， 它 是 以 tickTime 的 倍数 来 表示 的 。 
当初 始 化 连接 时 间 超 过 设置 倍数 的 tickTime 时 间 时 ， 则 连接 失败 。 


(2) syncLimit 


HEK leader follower.Z |B] ZI*IA AY vA bv SYA TAR 
度 。 如 果 follower 在 设置 的 时 间 内 不 能 与 leader 通 信 ， 那 么 此 follower 将 
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15.2.3 ”运行 ZooKeeper 


1. 单 机 模式 下 运行 ZooKeeper 


如 果 大 家 已 经 按照 15.2.1 节 中 的 第 2 点 正确 地 配置 了 ZooKeeper 的 环 
境 变 量 ， 那 么 我 们 现在 可 以 直接 在 终端 运行 ZooKeeper 的 sh 脚本 了 ， 从 
而 启动 ZooKeeper 的 服务 。 


大 家 可 以 通过 下 面 的 命令 来 启动 ZooKeeper 服 务 : 


zkServer.sh start 


这 个 命令 默认 情况 下 执行 ZooKeeper 的 conf 文 件 夹 下 的 zoo.cfg 配 置 
文件 。 当 运行 成 功 时 大 家 会 看 到 类 似 如 下 的 提示 界面 : 


root@ubuntu: ~#zkServer.sh start 

JMX enabled by default 

Using config: /root/hadoop-0.20.2/zookeeper - 
3.4.3/bin/../conf/zoo.cfg 

Starting zookeeper..... 

STARTED 

2011-01-19 10: 04: 42, 300-WARN[main: QuorumPeerMain@105 ] -Either 
no config or no 

quorum defined in config, running in standalone mode 

2011-01-19 10: 04: 42, 419-INFO[main: ZooKeeperServer@660] - 
tickTime set to 2000 

2011-01-19 10: 04: 42, 419-INFO[main: ZooKeeperServer@669] - 
minSessionTimeout 

set to-1 


2011-01-19 10: 04: 42, 419-INFO[main: ZooKeeperServer@678] - 
maxSessionTimeout 

set to-1 

2011-01-19 10: 04: 42, 560-INFO[main: NIOServerCnxn$Factory@143] - 
binding to port 

0.0.0.0/0.0.0.0: 2181 

2011-01-19 10: 04: 42, 806-INFO[main: FileSnap@82]-Reading 
snapshot/root/ 

hadoop-@.20.2/zookeeper -3.4.3/data/version-2/snapshot . 200000036 

2011-01-19 10: 04: 42, 927-INFO[main: FileSnap@82] -Reading 
snapshot/root/ 

hadoop-@.20.2/zookeeper -3.4.3/data/version-2/snapshot . 200000036 

2011-01-19 10: 04: 42, 950-INFO[main: FileTxnSnapLog@208] - 
Snapshotting: 

400000058 


从 上 面 可 以 看 出 ， 运 行 成 功 后 ， 系 统 会 列 出 ZooKeeper 运 行 的 相关 
环境 配置 信息 。 


2. 集 群 模式 下 运行 ZooKeeper 


在 集群 模式 下 需要 用 户 在 每 台 ZooKeeper 机 器 上 运行 第 一 部 分 的 命 
ix BAA o 


3. 集 群 伪 分 布 模式 下 运行 ZooKeeper 


在 集群 伪 分 布 模式 下 ， 我 们 只 有 一 台 机 器 ， 但 是 要 运行 三 
ZooKeeper 服 务实 例 。 此 时 ， 如 果 再 使 用 上 述 命 令 式 肯定 是 行 不 通 的 。 
这 时 只 要 通过 下 面 三 条 命令 瓯 能 运行 前 面 所 配置 的 ZooKeeper 服 务 了 。 
如 下 所 示 : 


zkServer.sh start zoo1.cfg 
zkServer.sh start zoo2.cfg 


zkServer.sh start zoo3.cfg 


在 运行 完 第 一 条 命令 之 后 ， 大 家 将 会 发 现 一 些 系 统 错误 提 示 ， 如 


15-4 所 示 。 


Al 15-4 集群 伪 分 布 异 党 提示 


产生 如 图 15-4 所 示 的 异常 信息 是 由 于 ZooKeeper 服 务 的 每 个 实例 都 
拥有 全 局 的 配置 信息 ， 它 们 在 启动 的 时 候 会 随时 地 进行 Leader 选 举 操 
作 (此 部 分 内 容 后 面 将 会 详细 讲述 ) 。 此 时 第 一 个 启动 的 Zookeeper 需 
要 和 另外 两 个 ZooKeeper 实 例 进 行 通信 。 但 是 ， 另 外 两 个 ZooKeeper 实 
例 还 没有 启动 起 来 ， 因 此 就 产生 了 这 样 的 异常 信息 。 


我 们 直接 将 其 忽略 即 可 ， 待 把 图 示 中 的 “2 号 ”和 “3 号 ?ZooKeeper 实 
例 局 动 起 来 之 后 ， 相 应 的 异常 信息 就 会 目 然而 然 的 消失 了 。 


4.ZooKeeper 四 字 命 令 


ZooKeeper 文 持 某 些 特定 的 四 字 命 令 字母 与 其 的 交互 。 它 们 大 多 是 
查询 命令 ， 用 来 获取 ZooKeeper 服 务 的 当前 状态 及 相关 信息 。 用 户 在 客 


户 端 可 以 通过 telnet 或 nc 回 ZooKeeper 提 交 相 应 的 命令 。ZooKeeper 钊 用 
的 四 字 命 令 见 表 15-2。 


$ 15-2 ZooKeeper 四 字 命 令 
ZooKceper 四 宇 命令 SHAE 
conf Fath FHS Ae PA LE A. 
PE FE A AR SS HESETA eA EH / vty Rae. Bia “2! RK” WS 


oe Belt, AiG id, PAPER. RRNA Ee 

dump 列 岂 未 经 处 理 的 会 话 和 临时 节点 

envi 输出 关于 服务 环境 的 详细 信息 (区别 于 conf 命令 ) 

reqs 列 出 sd 请 求 

are MU 5 AE Bh PEAS. AR AT koe. WPA. AR AK AL “imok”, GUAM 

何 啊 应 

stat SH tH EP PERE AUER A Pal Fl) Ze 

wehs 到 出 服务 器 watch 的 详细 信息 

i 通过 session 列 出 服务 器 watch 的 详细 信息 ， 它 的 町 出 是 一 个 与 watch MRM ALA 
列表 

wehp 通过 路 径 列 出 服务 器 watch 的 详细 信息 。 它 输出 一 个 与 session HRAJI iE 


15-5 是 ZooKeeper 四 字 命 令 的 一 个 简单 用 例 。 


rootBubuntu-laptop:-# echo [UK | ac 10.77.20.23 2181 
Leckrootesbunte- Laptop:~# echo conf | mc 18,77. 28,23 2181 


databies/rest/hadoop- 6.28. 2/zookeeper-3.3.1/d l/version-2 
datatogbir=/root/hadoop-8. 20. 2/200keeper-3.3.1/d L/wersiom-2 
TICKT ine~2000 

axcl Lentcnxns=10 
inSessloeTiseout 4100 
PAXSESSLONT Lecout=48689 


eran Fe =2887 


15-5 “ZooKeeper 四 字 命 令 用 例 


5.ZooKeeper 命 令 行 工具 


在 成 功 局 动 ZooKeeper 服 务 之 后 ， 输 入 下 述 命 令 ， 连 接 到 
ZooKeeper 服 务 : 


zkCli.sh-server 10.77.20.23: 2181 


连接 成 功 后 ， 系 统 会 输出 ZooKeeper 的 相关 环境 及 配置 信息 ， 并 在 
DEF LH “Welcome to ZooKeeper” 等 信息 。 


输入 help 之 后 ， 屏 幕 会 输出 可 用 的 ZooKeeper 命 令 ， 如 图 15-6 所 


JN: 


2K; 10.77, 20.23: 218 L1(COMMECTED) 1] Help 
ooKeeper -server Most:gort cad args 
connect host: port 
get psth [watch] 


delquota [-m|-b] path 
uit 
pr is nadi bes onjot 

è [-s] |-e] pa La data acl 
stot path (watch) 
close 
Ls2 psth 【wstchj] 
history 
Listquata path 
SetACL path acl 
getAcl path 
sync path 
redo mino 
addawth schese suth 
delete path [version] 
setquota -mi-b val path 


15-6 ”ZooKeeper 命 令 


15.3 ”ZooKeeper 的 简单 操作 


15.3.1 ”使 用 ZooKeeper 命 令 的 简单 控 作 步 又 


1) 使 用 ls 命令 查看 当前 ZooKeeper 中 所 包含 的 内 容 : 


[zk: 10.77.20.23: 2181 (CONNECTED) 1]1s/ 
[zookeeper ] 


2) 创建 一 个 新 的 Znode， 使 用 create/zk myData 这 个 命令 创建 了 一 
个 新 的 Znode 节 点 “zk”， 以 及 与 它 天 联 的 字符 上 串 : 


[zk: 10.77.20.23: 2181 (CONNECTED) 2]create/zk myData 
Created/zk 


3) 再 次 使 用 ls 命令 来 查看 现在 ZooKeeper 中 所 包含 的 内 容 : 


[zk: 10.77.20.23: 2181 (CONNECTED) 3]1s/ 
[zk, zookeeper ] 


EERI, zk ACARI o 


4) 下 面 我 们 运行 get 命 令 来 确认 第 二 步 中 所 创建 的 Znode 是 否 包含 
我 们 创建 的 字符 串 : 


[zk: 10.77.20.23: 2181 (CONNECTED) 4]get/zk 


myData 

Zxid=0x40000000c 

time=Tue Jan 18 18: 48: 39 CST 2011 
ZxXid=0x40000000c 

mtime=Tue Jan 18 18: 48: 39 CST 2011 
pZxid=0x40000000c 

cversion=0 

dataVersion=0 

aclVersion=0 

ephemeralOwner=0x0 

dataLength=6 

numChildren=0 


5) 接 下 来 通过 set 命 令 来 对 zk 所 关联 的 字符 串 进行 设置 : 


[zk: 10.77.20.23: 2181 (CONNECTED) 5]set/zk shenlan211314 
CZxXid=0x40000000c 

ctime=Tue Jan 18 18: 48: 39 CST 2011 
mZxid=0x40000000d 

mtime=Tue Jan 18 18: 52: 11 CST 2011 
pZxid=0x40000000c 

cversion=0 

dataVersion=1 

aclVersion=0 

ephemeralOwner=0x0 

dataLength=13 

numChildren=0 


6) 下 面 我 们 将 刚才 创建 的 Znode 删 除 : 
[zk: 10.77.20.23: 2181 (CONNECTED) 6]delete/zk 
7) 最 后 再 次 使 用 ls 命令 查看 ZooKeeper 所 包含 的 内 容 : 


[zk: 10.77.20.23: 2181 (CONNECTED) 7]1s/ 
[zookeeper ] 


经 过 验证 ， 汪 节点 已 经 被 删除 。 


15.3.2 ZooKeeper API 的 人 简单 使 用 


1.ZooKeeper API 人 简介 


ZooKeeper API 共 包含 五 个 包 ， 分 别 为 : org.apache.zookeeper ` 
org.apache.zookeeper.data ` org.apache.zookeeper.server ` 
org.apache.zookeeper.server.quorum 和 


org.apache.zookeeper.server.upgrade。 其 中 org.apache.zookeeper 包 含 


ZooKeeper 类 ， 它 是 我 们 编程 时 最 常用 的 类 文件 。 


这 个 类 是 ZooKeeper 客 户 病 库 的 主要 类 文件 。 如 果 要 使 用 
ZooKeeper 服 务 ， 应 用 程序 首先 必须 创建 一 个 Zookeeper 实 例 ， 这 时 就 
需要 使 用 此 类 。 一 旦 客户 端 和 ZooKeeper 服 务 建立 起 了 连接 ， 
ZooKeeper 系 统 将 会 给 此 连接 会 话 分 配 一 个 ID 值 ， 并 且 客 户 端 将 会 局 
期 性 地 回 服 务 需 发 送 心 跳 来 维持 会 话 的 连接 。 只 要 连 接 有 效 ， 客 户 端 
就 可 以 调用 ZooKeeper API 来 做 相应 的 处 理 。 


ZooKeeper 类 提供 了 表 15-3 所 示 的 几 类 主要 方法 。 


表 15-3 ZooKeeper 类 方法 描述 


th 能 摘 述 


create (EAR HE A Ae ae a, 

delete PR T 

exists 测试 本 地 是 否 存 在 目标 节点 

getisct data MA fn bikie / 写 救 据 

get/set ACL 获取 E R tae, Ua fo) de a a eA. 

get children 检索 一 个 子 节点 上 的 列表 

sync 等 待 要 被 传送 的 数据 
2.ZooKeeper API 的 使 用 


这 里 通过 一 个 例子 来 答 单 介绍 如 何 使 用 ZooKeeper API 编 写 自己 的 
应 用 程序 ， 见 代码 清单 15-6。 


代码 清单 15-6 ZooKeeper API 的 使 用 


package cn.edu.ruc.cloudcomputing.book.chapter14; 
import java.io. IOException; 


import org.apache.zookeeper.CreateMode; 
import org.apache.zookeeper .KeeperException; 
import org.apache.zookeeper .Watcher; 

import org.apache.zookeeper .ZooDefs.Ids; 
import org.apache.zookeeper .ZooKeeper; 


ONOORWNE 
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public class demo{ 

10// 会 话 超时 时 间 ， 设 置 为 与 系统 默认 时 间 一 至 

11 private static final int SESSION_TIMEOUT=30000; 
12 

13// 创 建 ZooKeeper 实 例 

14 ZooKeeper zk; 

15 
16// 创 建 Watcher 实 例 

17 Watcher wh=new Watcher () { 

18 public void process (org.apache.zookeeper.WatchedEvent event) 
19{ 

20 System.out.printin (event.toString () ) ; 

21} 


22}; 

23 

24// 初 始 化 ZooKeeper 实 例 

25 private void createZKInstance () throws IOException 

26{ 

27 zk=new Zookeeper ("localhost: 2181", demo.SESSION_TIMEOUT, 
this.wh) ; 

28 

29} 

30 

31 private void ZKOperations () throws IOException, 
InterruptedException, Keepe 

rException 

32{ 


33 System.out.printin ("\n1. Zookeeper ii (znode: z002， 数 据 : 
myData2, 

权限 : OPEN_ACL_UNSAFE， 节 点 类 型 : Persistent") ; 

34 zk.create ("/zoo2", "myData2".getBytes () , 
Ids.OPEN_ACL_UNSAFE, 

CreateMode.PERSISTENT) ; 

35 

36 System.out.printlin ("NXn2 ,查看 是 否 创建 成 功 : ") ; 

37 System.out.println (new String (zk.getData ("/zoo2", false, 
null) ) ) ; 

38 

39 System.out.printin ("Nn3 .修改 节点 数据 ") ; 

40 zk.setData ("/zoo2", "shenlan211314".getBytes () ，-1) ; 

41 

42 System.out.println ("NXn4. 查 看 是 否 修改 成 功 : ") ; 

43 System.out.println (new String (zk.getData ("/zoo2", false, 
null) ) ) ; 

44 

45 System.out.printin ("\n5. 删 除 节点 ") ; 

46 zk.delete ("/zoo2", -1) ; 

47 

48 System.out.println ("\n6. 查 看 节点 是 否 被 删除 : ") ; 

49 System.out.println ("节点 状态 : ["+zk.exists ("/zoo2", false) 
ye) ; 

50} 

51 

52 private void ZKClose () throws InterruptedException 

53{ 

54 zk.close () ; 

55} 

56 

57 public static void main (String[]args) throws IOException, 
InterruptedExce 

ption, KeeperException{ 


58 demo dm=new demo () ; 

59 dm.createZKInstance () ; 
60 dm.ZKOperations () ; 

61 dm.ZKClose () ; 

62} 

63} 


此 类 包含 两 个 主要 的 ZooKeeper 函 数 ， 分 别 为 createZKInstance 
() 和 ZKOperations () 。 其 中 createZKInstance () 函数 负责 对 
ZooKeeper 实 例 zk 进 行 初始 化 。ZooKeeper 类 有 两 个 构造 玉 数 ， 这 里 使 
用 “ZooKeeper (String connectString, int sessionTimeout, Watcher 
watcher) ”对 其 进行 初始 化 。 因 此 ， 我 们 需要 提供 初始 化 所 需 的 连接 
字符 串 信息 、 会 话 超时 时 间 ， 以 及 一 个 watcher 实 例 。 第 17 行 到 第 23 行 
的 代码 是 程序 所 构造 的 一 个 watcher 实 例 ， 它 能 够 输出 所 发 生 的 事件 。 


ZKOperations () 函数 是 我 们 所 定义 的 对 节点 的 一 系列 操作 。 它 
包括 : 创建 ZooKeeper 节 点 (第 33 行 到 第 34 行 代码 ) 、 查 看 节点 (第 36 
行 到 第 37 行 代码 ) 、 修 改 节 点 数据 (第 39 行 到 第 40 行 代码 ) 、 查 看 修 
改 后 节点 数据 (第 42 行 到 第 43 行 代码 ) 、 删 除 节点 (第 45 行 到 第 46 行 
RE) 、 查 看 节点 是 否 存 在 (第 48 行 到 第 49 行 代码 ) 。 另 外 ， 需 要 注 
意 的 是 ， 在 创建 节点 的 时 候 ， 需 要 提供 节点 的 名 称 、 数 据 、 权 限 ， 以 
及 节点 类 型 。 此 外 ， 使 用 exists 函 数 时 ， 如 果 贡 点 不 存在 则 返回 一 个 
null 值 。 关 于 ZooKeeper API 的 更 多 详细 信息 ， 大 家 可 以 查看 ZooKeeper 
的 API 文 档 ， 如 下 所 示 : 


http: //hadoop. apache. org/zookeeper/docs/r3.4.3/api/index. html 


代码 清单 15-6 中 程序 运行 的 结果 如 下 所 示 。 


1 创建 ZooKeeper 节 点 (znode: zoo2， 数 据 : myData2， 权 限 
OPEN_ACL_UNSAFE， 节 点 类 型 : 

Persistent 

11/01/18 05: 07: 16 INFO zookeeper.ClientCnxn: Socket connection 
established to 

localhost/127.0.0.1: 2181, initiating session 

11/01/18 05: 07: 16 INFO zookeeper.ClientCnxn: Session 
establishment complete on 

server localhost/127.0.0.1: 2181, sessionid=0x12d97fd5d39000a, 
negotiated 

timeout=30000 

WatchedEvent state: SyncConnected type: None path: null 

2 查看 是 否 创建 成 功 : 

myData2 

3 修改 节点 数据 

4 查看 是 否 修改 成 功 : 

shenlan211314 

5 删除 节点 

6 查看 节点 是 否 被 删除 : 

PARS: [null] 


15.4 ZooKeeper 的 特性 


15.4.1 ZooKeeper 的 数据 模型 


ZooKeeper 拥 有 一 个 层次 的 命名 空间 ， 这 和 分 布 式 的 文件 系统 非常 
相似 。 唯 一 不 同 的 地 方 是 命名 空间 中 的 每 个 节点 可 以 有 和 它 目 身 或 它 
的 子 节 点 相关 联 的 数据 。 这 束 好 像 古 一 个 文件 系统 ， 只 不 过 文件 系统 
中 的 文件 还 可 以 具有 目录 的 功能 。 男 外 ， 指 向 节点 的 路 径 必 须 使 用 规 
范 的 绝对 路 径 来 表示 ， 并 且 以 斜 线 “/” 来 分 隔 。 需 要 注意 的 是 ， 在 
ZooKeeper 中 不 允许 使 用 相对 路 径 。 


1.Znode 


ZooKeeper 目 录 树 中 的 每 一 个 节点 对 应 着 一 个 Znode。 每 个 Znode 
维护 着 一 个 属性 结构 ， 它 包含 数据 的 版 本 号 (dataVersion) ` TEER 
(ctime、mtime) 等 状态 信息 。ZooKeeper 正 是 使 用 节点 的 这 些 特性 来 
实现 它 的 某 些 特定 功能 的 。 每 当 Znode 的 数据 改变 时 ， 它 相应 的 版 本 
号 将 会 增加 。 每 当 客户 端 检 索 数 据 时 ， 它 将 同时 检索 数据 的 版 本 号 。 
并 且 如 果 一 个 客户 端 执行 了 某 个 节点 的 更 新 或 删除 操作 ， 它 也 必须 提 
供 要 被 操作 的 数据 的 版 本 号 。 如 果 所 提供 的 数据 版 本 号 与 实际 的 不 匹 
配 ， 那 么 这 个 操作 将 会 失败 。 


Znode 是 客户 端 要 访问 的 ZooKeeper 的 主要 实体 ， 它 包含 以 下 几 个 
主要 特征 : 


(1) Watches 


客户 端 可 以 在 节点 上 设置 watch (我 们 称 之 为 监视 器 ) 。 当 节点 的 
状态 发 生 改 变 时 (数据 的 增 、 删 、 改 等 操作 ) 将 会 触发 watch 对 应 的 操 
作 。 当 watch 被 触发 时 ，Zookeeper 将 会 回 客 户 端 发 送 且 仅 发 送 一 个 通 
知 ， 因 为 watch 只 能 被 触发 一 次 。 


(2) 数据 访问 


ZooKeeper 中 的 每 个 斑点 上 存储 的 数据 需要 被 原子 性 的 操作 。 也 丈 
征 说 ， 读 操作 将 获取 与 节点 相关 的 所 有 数据 ， 写 操作 也 将 奉 换 掉 世 点 
的 所 有 数据 。 男 外 ， 每 一 个 市 点 都 拥有 自己 的 ACL (访问 控制 列 
表 ) ， 这 个 列表 规定 了 用 户 的 权限 ， 即 限定 了 特定 用 户 对 目标 节点 可 
以 执行 的 操作 。 


(3) 临时 节点 


ZooKeeper 中 的 市 点 有 两 种 ， 分 别 为 临时 市 点 和 永久 市 点 。 市 点 的 
类 型 在 创建 时 即 被 确定 ， 并 且 不 能 改变 。ZooKeeperI 临 时 节点 的 生命 周 
期 依赖 于 创建 它们 的 会 话 。 一 旦 会 话 结束 ， 临 时 节点 将 被 目 动 删除 ， 
当然 也 可 以 手动 删除 。 男 外 ， 需 要 注意 的 是 ，ZooKeeper 的 临时 市 点 不 
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有 在 客户 端 显示 执行 删除 操作 的 时 候 ， 它 们 才 被 删除 。 


(4) 顺序 节点 (唯一 性 保证 ) 


当 创 建 Znode 的 上 时候， 用 户 可 以 请 求 在 ZooKeeper 的 路 径 结尾 添加 
一 个 递增 的 计数 。 这 个 计数 对 于 此 节点 的 父 节点 来 说 是 唯一 的 ， 它 的 
格式 为 “%010d”(10 位 数字 ， 没 有 数值 的 数据 位 用 0 填充 ， 例 如 
0000000001) 。 当 计数 值 大 于 23 -1 时 ， 计 数 妖 将 会 洲 出 。 


2.ZooKeeper 中 的 时 间 


ZooKeeper 中 有 多 种 记录 时 间 的 形式 ， 其 中 包括 如 下 几 个 主要 属 
性 : 


(1) Zxid 


BU (HEZooKeeper 1) 点 状态 改变 的 每 一 个 操作 都 将 使 节点 接收 到 一 个 
zxid 格 式 的 时 间 戳 ， 并 且 这 个 时 间 戳 是 全 局 有 序 的 。 也 就 是 说 ， 每 一 
个 对 节点 的 改变 都 将 产生 一 个 唯一 的 zxid。 如 果 zxid1 的 值 小 于 zxid2 的 
值 ， 那 么 zxid1 所 对 应 的 事件 发 生 在 zxid2 所 对 应 的 事件 之 前 。 实 际 上 ， 
ZooKeeper 的 每 个 节点 维护 着 三 个 zxid 值 ， 分 别 为 : cZxid、mZxid 和 
pZxid。cZxid 是 节点 的 创建 时 间 所 对 应 的 Zxid 格 式 时 间 惟 ，mZxid 是 节 
点 的 修改 时 间 所 对 应 的 Zxid 格 式 时 间 戳 。 


(2) 版 本 号 


对 节点 的 每 一 个 操作 都 将 致使 这 个 节点 的 版 本 号 增加 。 每 个 节 
维护 着 三 个 版 本 号 ， 它 们 分 别 为 : version (节点 数据 版 本 号 ) > 
cversion 〈 子 节点 版 本 号 ) 、avevsion (节点 所 拥有 的 ACL 的 版 本 


c 


T RJR TEN 


通过 上 面 的 介绍 ， 我 们 可 以 了 解 到 ， 一 个 节点 目 身 拥有 表示 其 
态 的 许多 重要 属性 ， 表 15-4 给 出 了 详细 的 介 


% 15-4 Zookeeper 节点 属性 


BEDES 


RIN 


局 性 48) 述 
ezxid 节点 被 创建 的 Zaid ffi 
mzxid 节点 被 修改 的 Zxid [if 
ctime 季 点 被 剑 建 的 时 间 
mtime 7 Aiia 2K GE t fa] 
vesion 第 点 被 修改 的 版 本 号 
eversion 节点 所 拥有 的 子 节 点 被 修改 的 卫 本 号 
aversion 节点 的 ACL 被 修改 的 版 本 号 
emphemeralOwner 如 果 此 节点 为 暂时 节点 ,那么 它 的 值 为 这 个 节点 拥有 者 的 会 话 ED; FH, EMH 0 
dataLength TA Be HE RA AE HE 


numChildren HERRITA 


15.4.2 ”ZooKeeper 会 话 及 状态 


ZooKeeper 客 户 端 通过 句柄 为 ZooKeeper 服 务 建 立 一 个 会 话 。 这 个 
会 话 一 旦 被 创建 ， 句 柄 将 以 CONNECTING 状 态 开始 启动 。 客 户 端 将 学 
试 连接 到 其 中 一 个 ZooKeeper 服 务 右 ， 如 采 连 接 成 功 ， 它 的 状态 将 要 为 
CONNECTED 。 在 一 般 情 况 下 只 有 上 述 这 两 种 状态 。 如 采 一 个 可 恢复 
的 错误 发 生 ， 比 如 会 话 终 绪 或 认证 失败 ， 或 者 应 用 程序 明确 地 关闭 了 
句柄 ， 句 柄 将 会 转 入 天 闭 状态 。 


ZooKeeper 的 状态 转换 如 图 15-7 所 示 : 


CLOSED 


15-7 ZooKeeper 状 态 转 换 图 


为 了 创建 一 个 客户 端 会 话 ， 应 用 程序 必须 提供 一 个 由 主机 (IP 或 
主机 名 ) 和 端口 所 组 成 的 连接 字符 串 ， 这 个 字符 串 标 识 了 要 连接 的 目 


标 主机 及 主机 端口 。ZooKeeper 客 户 端 将 选择 服务 器 列表 中 的 任意 一 个 
服务 器 并 尝试 连接 。 如 果 连 接 失 败 ， 那 么 客户 端 将 目 动 和 尝试 连接 服务 
列表 中 的 其 他 服务 器 ， 直 到 连接 成 功 。 


15.4.3 ZooKeeper watches 


ZooKeeper 可 以 为 所 有 的 读 操 作 设置 watch， 这 些 读 操 作 包括 : 
exists () ` getChildren () 以 及 getData () 。watch 事 件 是 一 次 性 的 触 
发 硕 ， 当 watch 的 对 象 状 态 发 生 改 变 时 ， 将 会 触发 此 对 象 上 所 设置 的 
wath 对 应 的 事件 。 


在 使 用 watch 时 需要 注意 ，watch 是 一 次 性 触发 右 ， 并 且 只 有 在 数 
据 发 生 改 变 时 ，watch 事 件 才 会 被 发 送 给 客户 端 。 例 如 : 如 果 一 个 客户 
端 进行 了 getData (“/znodel”, true) 操作 ， 并 日 之 后 “/znode1” 的 数据 
被 改变 或 删除 了 ， 那 么 客户 端 将 获得 一 个 天 于 “/znode1” 的 事件 。 如 
采 /znodel 再 次 改变 ， 那 么 将 不 再 有 watch 事 件 发 送 给 客户 端 ， 除 非 客 
户 端 为 另 一 个 读 操 作 重 新 设置 了 一 个 watch 。 


watch 事 件 将 被 异步 地 发 送 给 客户 端 ， 并 且 ZooKeeper 为 watch 机 制 
提供 了 有 序 的 一 致 性 保证 。 理 论 上 ， 客 户 端 接收 watch 事 件 的 时 间 要 快 
于 其 看 到 watch 对 象 状 态 变 化 的 时 间 。 


ZooKeeper 所 管理 的 watch 可 以 分 为 两 类 : 一 类 是 数据 watch (data 
watches) ; 一 类 是 子 watch (child watches) 。getData () 和 exists () 
负责 设置 数据 watch, getChildren () 负责 设置 孩子 watch。 我 们 可 以 通 
过 操作 返回 的 数据 来 设置 不 同 的 watch。getData () exists () 返回 


关于 节点 数据 的 信息 ，getChildren () 返回 孩子 列表 。 因 此 ，setData 

() 将 触发 设置 了 数据 watch 的 对 应 事件 。 一 个 成 功 的 create () 操作 
将 触发 Znode 的 数据 watch， 以 及 孩子 watch。 一 个 成 功 的 delete () 操 
作 将 触发 数据 watch 和 和 孩子 watch， 因 为 Znode 被 删除 的 时 候 ， 它 的 child 
watch 也 将 被 删除 。 


watch 由 客户 端 所 连接 的 ZooKeeper 服 务 恬 在 本 地 维护 ， 因 此 watch 
可 以 非常 容易 地 设置 、 管 理 和 分 派 。 当 客户 端 连 接 到 一 个 新 的 服务 器 
上 时 ， 任 何 的 会 话 事件 都 将 可 能 触发 watch。 男 外 ， 当 从 服务 絮 断 开 连 
接 的 时 候 ，watch 将 不 会 被 接收 。 但 是 ， 当 一 个 客户 端 重新 建立 连接 的 
时 候 ， 任 何 先前 注册 过 的 watch 都 会 被 重 狐 注册。 


15.4.4 ZooKeeper ACL 


ZooKeeper 使 用 ACL 来 对 Znode 进 行 访问 控制 。ACL 的 实现 和 UNIX 
文件 访问 许可 非常 相似 : 它 使 用 许可 位 来 对 一 个 世 点 的 不 同 操作 进行 
允许 或 蔡 止 的 权限 控制 。 但 是 ， 和 标准 的 UNIX 许 可 不 同 的 是 ， 
ZooKeeper 世 点 有 user (文件 的 拥有 者 ) 、group 和 world 三 种 标准 模式 ， 
并 且 没 有 节点 所 有 者 的 概念 。 


需要 注意 的 是 ， 一 个 ACL 和 一 个 ZooKeeper 节 点 相对 应 。 并 且 ， 父 
万 点 的 ACL 与 子 节 点 的 ACL 是 相互 独立 的 。 也 就 是 说 ，ACL 不 能 被 子 
太 点 所 继承 ， 父 节点 所 拥有 的 权限 与 子 节 点 所 拥有 的 权限 没有 任何 天 
Az o 


表 15-5 为 访问 控制 列表 所 规定 的 权限 。 


表 15-5 ACL 权限 


权 Re Pa PRR Fitba: 
CREATE (0i) 创建 子 节点 
READ (p4) 从 节点 获取 数据 或 列 山 节点 的 所 有 子 节 点 
WRITE (%) LEE Ps es A 
DELETE (BIRR) 删除 子 节点 
ADMIN (MH) Fy LA e A 


ZooKeeper ACL 的 使 用 依赖 于 验证 ， 它 文 持 如 下 儿 种 验证 模式 : 


world: 代表 茶 一 特定 的 用 户 (Aim) 。 


auth: 代表 任何 已 经 通过 验证 的 用 户 (客户 端 )。 
digest: 通过 用 户 名 密码 进行 验证 。 
ip: 通过 客户 端 人 P 地 址 进行 验证 。 
会 话 建立 的 时 候 ， 客 户 端 将 会 进行 自我 验证 。 
另外 ，ZooKeeper Java API 文 持 三 种 标准 用 户 权 限 ， 它 们 分 别 为 : 


Z00_OPEN_ACL_UNSAFE; 
Z00_READ_ACL_UNSAFE; 
Z00_CREATOR_ALL_ACL; 


ZOO_OPEN_ACL_UNSAFE 对 于 所 有 的 ACL 来 说 都 是 完全 开放 
的 : 任何 应 用 程序 可 以 在 节点 上 执行 任何 操作 ， 比 如 创建 、 列 出 并 删 
除 子 节点 。ZOO_READ_ACL_UNSAFE 对 于 任意 的 应 用 程序 来 说 ， 仅 
仅 具 有 读 权 限 。ZOO_CREATOR_ALL_ACL 授 予 节点 创建 者 所 有 的 权 
限 。 需 要 注意 的 是 ， 在 设置 此 权限 之 前 ， 创 建 者 必须 已 经 通过 了 服务 
器 的 认证 。 


15.4.5 “ZooKeeper 的 一 致 性 保证 


ZooKeeper 是 一 种 高 性 能 、 可 扩展 的 服务 。ZooKeeper 的 读 写 速度 
非常 快 ， 并 且 读 的 速度 要 比 写 更 快 。 另 外 ， 在 进行 读 操作 的 时 候 ， 
ZooKeeper 依 然 能 够 为 上 日 的 数据 提供 服务 。 这 些 都 是 由 ZooKeeper 所 提 
供 的 一 致 性 保证 的 ， 它 具有 如 下 特点 : 


(1) 顺序 一 致 性 


客户 端的 更 新 顺序 与 它们 被 发 送 的 顺序 相 一 致 。 
(2) 原 于 性 

更 新 操作 要 人 么 成 功 要 么 失败 ， 没 有 第 三 种 结果 。 
(3) 单 系统 镜像 


无 论 客 户 端 连接 到 哪 一 个 服务 器 ， 他 将 看 到 相同 的 ZooKeeper 视 


(4) 可 靠 性 


一 旦 一 个 更 新 操作 被 应 用 ， 那 么 在 客户 端 再 次 更 新 它 之 前 ， 其 值 
将 不 会 改变 。 这 会 保证 产生 下 面 两 种 结果 : 


如 果 客 户 端 成 功 地 获得 了 正确 的 返回 代码 ， 那 么 说 明 更 新 已 经 成 
功 。 如 果 不 能 够 获得 返回 代码 (由 于 通信 和 错误、 超时 等 原因 ) ， 那 么 
客户 病 将 不 知道 更 新 操作 是 否 生 效 。 


当 故 障 恢复 的 时 候 ， 任 何 客户 端 能 够 看 到 的 执行 成 功 的 更 新 操作 
将 不 会 回 滚 。 


(5) 实时 性 


在 特定 的 一 段 时 间 内 ， 客 户 端 看 到 的 系统 需要 被 保证 定 实时 的 
(在 十 几 秒 的 时 间 里 ) 。 在 此 时 间 段 内 ， 任 何 系统 的 改变 将 被 客户 端 
看 到 ， 或 者 被 客户 端 侦 测 到 。 


这 些 一 致 性 得 到 保证 后 ，ZooKeeper 更 高 级 功能 的 设计 与 实现 将 会 
变 得 非常 容易 ， 例 如 : leader 选举、 队列 ， 以 及 可 撤销 锁 等 机 制 的 实 
现 。 


15.5 (EH ZooKeeperi##{7 Leaderit4s 


ZooKeeper 需 要 在 所 有 的 服务 (可 以 理解 为 服务 器 ) 中 选举 出 一 个 
Leader， 然 后 让 这 个 Leader 来 负责 管理 集群 。 此 时 ， 集 群 中 的 其 他 服 
务 器 则 成 为 了 此 Leader 的 Follower。 并 且 ， 当 Leader 出 现 故障 的 时 候 ， 
ZooKeeper 要 能 够 快速 地 在 Follower 中 选举 出 下 一 个 Leader。 这 就 是 
ZooKeeper 的 Leader 机 制 ， 下 面 我 们 将 简单 介绍 如 何 使 用 ZooKeeper 实 


现 Leader 选 举 (Leader Election) 


此 操作 实现 的 核心 思想 是 : 首先 创建 一 个 EPHEMERAL 目 录 区 
点 ， 例 如 “election”。 然 后 每 一 个 ZooKeeper 服 务 器 在 此 目录 下 创建 一 
个 SEQUENCEIEPHEMERAL 类 型 的 节点 ， 例 如 ”%electionn_”。 在 
SEQUENCE 标志 下 ，ZooKeeper 将 目 动 地 为 每 一 个 ZooKeeper 服 务 器 分 
配 一 个 比 前 面 所 分 配 的 序号 要 大 的 序号 。 此 时 创建 节点 的 ZooKeeper 服 
务 器 中 拥有 最 小 编号 的 服务 器 将 成 为 Leader 。 


在 实际 的 操作 中 ， 还 需要 保证 : 当 Leader 服 务 器 发 生 故 障 的 时 
候 ， 系 统 能 够 快速 地 选 出 下 一 个 ZooKeeper 服 务 器 作为 Leader。 一 个 简 
单 的 解决 方案 是 ， 让 所 有 的 Follower 监 视 leader 所 对 应 的 节点 。 当 
Leader 发 生 故 障 时 ，Leader 所 对 应 的 临时 节点 会 被 自动 删除 ， 此 操作 
将 会 触发 所 有 监视 Leader 的 服务 器 的 watch。 这 样 这 些 服务 硕 区 会 收 到 
Leader 故 障 的 消 筷 ， 进 而 进行 下 一 次 的 Leader 选 举 操作 。 但 是 ， 这 种 


操作 将 会 导致 "从 众 效 应 ”的 发 生 ， 尤 其 是 当 集 群 中 服务 器 众多 并 且 带 
宽 延 迟 比较 大 的 时 候 更 为 明显 。 


在 ZooKeeper 中 ， 为 了 避免 从 众 效 应 的 发 生 ， 它 是 这 样 来 实现 的 : 
每 一 个 Follower 为 Follower 集 群 中 对 应 着 比 自己 节点 序号 小 的 节点 中 x 
序号 最 大 的 节点 设置 一 个 watch。 只 有 当 Follower 所 设置 的 watch 被 触发 
时 ， 它 才 进 行 Leader 选 举 操作 ， 一 般 情 况 下 它 将 成 为 集群 中 的 下 一 个 
Leader 。 很 明显 ， 此 Leaderi 选 举 操作 的 速度 是 很 快 的 。 因 为 每 一 次 
Leader 选 举 几 乎 只 涉及 单个 Follower 的 操作 。 


15.6 ZooKeeperBisKs 


在 ZooKeeper 中 ， 完 全 分 布 的 锁 征 全 局 同步 的 。 也 束 是 说 ， 在 同一 
时 刻 ， 不 会 有 两 个 不 同 的 客户 端 认 为 他 们 持 有 了 相同 的 锁 。 这 一 节 我 
们 将 回 大 家 介绍 在 ZooKeeper 中 的 各 种 锁 机 制定 如 何 实现 的 。 


15.6.1 ZooKeeper F AY BL Fl 


ZooKeeper 将 按照 如 下 方式 实现 加 锁 的 探 作 : 


1) ZooKeeper 调 用 create () 方法 来 创建 一 个 路 径 格式 
为 ” locknode ylock-” 的 节点 ， 此 节点 类 型 为 sequence (连续 ) 和 
ephemeral (临时 ) 。 也 就 是 说 ， 创 建 的 节点 为 临时 节点 ， 并 且 所 有 的 
节点 连续 编号 ， 即 为 “lock-i” 的 格式 。 


2) 在 创建 的 锁 节 点 上 调用 getChildren () 方法 ， 以 获取 锁 目 录 下 
的 最 小 编号 节点 ， 并 且 不 设置 watch。 


3) 步骤 2 中 获取 的 节点 恰好 是 步骤 1 中 客户 端 创建 的 万 点 ， 那 么 此 
客户 端 会 获得 该 种 类 型 的 锁 ， 然 后 退出 操作 。 


4) 客户 端 在 锁 目 录 上 调用 exists O 方法 ， 并 且 设 置 watch 来 监视 
锁 目录 下 序号 相对 自己 次 小 的 连续 临时 节点 的 状态 。 


5) 如 果 监 视 世 点 状态 发 生变 化 ， 则 跳 转 到 步骤 2， 继 续 进 行 后 续 
的 操作 ， 直 到 退出 锁 竞 争 。 


ZooKeeper 的 解锁 操作 非 营 简 单 ， 客 户 端 只 需要 将 加 锁 操 作 步 骤 1 
中 创建 的 临时 市 点 删除 即 可 。 


注意 ”1) 一 个 客户 端 解锁 之 后 ， 将 只 可 能 有 一 个 客户 端 获 得 锁 ， 
因此 每 一 个 临时 的 连续 万 点 对 应 着 一 个 客户 端 ， 并 且 和 节点 之 间 没 有 重 
@; 2) 在 ZooKeeper 的 锁 机 制 中 没有 轮 询 和 超时 。ZooKeeper 中 锁 机 制 
流程 图 如 图 15-8 所 示 。 


客户 问 调 用 createc0 创 建 
“lacknade_dack-" 话 统 


临时 苞 点 


ES il get Childreng) 
方法 ， 获 取 钙 目录 下 最 小 
Se 


客户 调用 existst) 方 法 ， s rs 
监视 绩 目 录 比 自己 小 一 le 一 而 当前 最 小 线 号 节点 是否 为 
个 的 连续 临时 节点 自己 所 刘 建 的 节点 


ua 
tE 


15-8 ZooKeeper 锁 机 制 流程 图 


15.6.2 ”ZooKeeper 提 供 的 一 个 写 泵 的 实现 


在 ZooKeeper 安 装 目 录 的 recipes 目 孙 下 有 一 个 ZooKeeper 分 布 式 写 


锁 的 实现 方式 (ZooKeeper_Dir/src/recpies/lockH 5%) ° 
其 中 ， 加 锁 的 实现 如 代码 清单 15-7 所 示 。 
代码 清单 15-7 lock 


1 public synchronized boolean lock () throws KeeperException, 
InterruptedException{ 

2 if (isClosed () ) { 

3 return false; 

4} 

5 ensurePathExists (dir) ; 

6 

7 return (Boolean) retryOperation (zop) ; 


8} 


在 加 锁 操 作 的 实现 中 ， 首 先 调用 isclosed () 方法 来 检查 锁 的 状 
态 ， 如 果 没 有 获得 锁 ， 则 调用 ensurePathExists () 方法 来 设置 一 个 监 
视 器 。 这 正如 我 们 在 15.6.1 节 所 描述 的 步骤 。 


解锁 的 实现 如 代码 清单 15-8 所 示 。 
代码 清单 15-8 unlock 


1 public synchronized void unlock () throws RuntimeException{ 
2 


3 if (! isClosed () &&id! =null) { 

4 try{ 

5 

6 ZooKeeperOperation zopdel=new ZooKeeperOperation () { 

7 public boolean execute () throws KeeperException, 
InterruptedException 

8{ 

9 zookeeper.delete (id, -1) ; 

10 return Boolean. TRUE; 

11} 

12}; 

13 zopdel.execute () ; 

14}catch (InterruptedException e) { 

15 LOG.warn ("Caught: "+e, e) ; 

16//set that we have been interrupted. 

17 Thread.currentThread () .interrupt () ; 

18}catch (KeeperException.NoNodeException e) { 

19 

20}catch (KeeperException e) { 

21 LOG.warn ("Caught: "+e, e) ; 

22 throw (RuntimeException) new RuntimeException (e.getMessage 


23 initCause (e) ; 

24} 

25 finally{ 

26 if (callback! =null) { 

27 callback. lockReleased () ; 
28} 

29 id=null; 

30} 

31} 

32} 


解锁 的 操作 主要 是 通过 代码 中 的 第 6 一 12 行 来 实现 的 ， 只 需要 删除 
锁 对 应 的 临时 节点 即 可 。 


注意 ” 当 此 操作 出 现 故 障 的 时 候 ， 我 们 不 需要 重复 这 个 解锁 操 
作 。 男 外 ， 在 不 能 重新 连接 的 时 候 ， 我 们 也 不 需要 做 任何 处 理 ， 因 为 


ZooKeeper 会 自动 地 删除 临时 节点 ， 并 且 在 服务 器 出 现 故 障 的 上 时候， 此 
| 临时 节点 也 会 随 着 服务 的 结束 而 目 动 删除 。 


15.7 ”使 用 ZooKeeper 创 建 应 用 程序 


本 节 将 首先 介绍 如 何 使 用 Eclipse 开发 Zookeeper 应 用 程序 ， 然 后 通 
过 一 个 实例 让 大 家 熟悉 Zookeeper 的 简单 开发 。 


15.7.1 使 用 Eclipse 开发 ZooKeeper 应 用 程序 


ZooKeeper 客 户 端 文 持 两 种 语言 的 编程 ， 包 括 Java 和 C， 我 们 以 
Java 为 例 介绍 如 何 进行 程序 的 开发 。 为 了 方便 编写 程序 ， 一 般 习 惯 于 
使 用 IDE。 对 于 Java 程 序 来 说 ， 首 选 莫 过 于 Eclipse， 下 面 我 们 介绍 如 何 
使 用 Eclipse 进行 ZooKeeper 程 序 的 开发 。 


首先 在 Eclipse 创建 一 个 工程 ， 我 们 命名 为 ZooKeeper， 如 图 15-9 所 


| src 
> wh JRE System Library | javasE 1.6| 


G Problems @ Javadoc R} Declaration’ B Console I 


No consoles to display at this time 


15-9 创建 ZooKeeper 应 用 程序 


在 创建 完工 程 之 后 ， 我 们 还 不 能 使 用 ZooKeeper 的 类 库 ， 因 此 需 
导入 ZooKeeper 的 jar 包 。 具 体操 作为 : 选中 工程 ~- 右键， 选择 
Properties > Java Build Path > Libraries > Add External JARs > 定位 到 
ZooKeeper-3.4.3 安 装 目 孙 ， 选 择 根 目 了 永 下 的 zookeeper-3.4.3.jar 文 件 
一 OK。 如 图 15-10 所 示 。 
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15-10 ”添加 ZooKeeper 的 Jar 包 


添加 完 ZooKeeper 的 Jar 包 之 后 ， 可 以 创建 ZooKeeper 应 用 程序 并 3 引 
用 ZooKeeper 提 供 的 类 库 了 。 该 Jar 文 件 所 包含 的 Package 如 下 图 15-11 所 
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15-11 ZooKeeperH’)Package 


在 所 有 的 包 中 ，org.apache.zookeeper 和 org.apache.zookeeper.data 是 

最 基本 的 ， 一 般 客户 端 应 用 程序 的 编写 都 要 用 到 这 两 个 包 所 提供 的 
类 ， 其 他 包 相 对 使 用 的 频率 要 小 。 在 org.apache.zookeeper 中 提供 了 
ZooKeeper 客 户 端 连接 服务 需 的 实例 。 一 个 最 简单 的 ZooKeeper 实 例 初 

台 化 函数 包括 三 个 参数 : public ZooKeeper (String connectString, int 
sessionTimeout, Watcher watcher) 。 这 里 ，connectString 为 客户 端 连接 
服务 器 字符 串 ， 格 式 为 “TP/Hostname: Port”， 例 如 “zoo1: 2181”, 
sessionTimeout 设 置 的 是 会 话 超时 时 间 ，watcher 设 置 的 是 监视 器 ， 该 监 


视 器 通过 org.apache.zookeeper.Watcher 进 行 初始 化 。 


一 个 简单 的 应 用 程序 如 代码 清单 15-6 所 示 ， 下 面 给 出 一 个 综合 的 
例子 供 大 家 参考 。 


15.7.2 ”应 用 程序 实例 


此 市 将 通过 一 组 人 简单 的 ZooKeeper 应 用 程序 实例 来 品 大 家 展示 
ZooKeeper 的 某 些 功能 。 这 一 和 所 实现 的 主要 功能 包括 : 创建 组 、 加 入 
组 、 列 出 组 成 员 ， 以 及 删除 组 。 


为 了 避免 某 些 重复 性 的 操作 ， 我 们 创建 了 一 个 本 应 用 程序 的 基 
X. ZooKeeperInstance。 它 主要 实现 了 Zookeeper 对 和 象 的 实例 化 操作 。 
详 见 代码 清单 15-9 。 


代码 清单 15-9 ”ZooKeeperInstance 


package cn.edu.ruc.cloudcomputing.book.chapter15; 
import java.io.IOException; 


1 
2 
3 
4 
5 import org.apache.zookeeper .WatchedEvent; 

6 import org.apache.zookeeper .Watcher; 

7 import org.apache.zookeeper .ZooKeeper; 

8 

9 public class ZooKeeperInstance{ 

10// 会 话 超时 时 间 ， 设 置 为 与 系统 默认 时 间 一 至 

11 public static final int SESSION_TIMEOUT=30000; 
12 

13// 创 建 ZooKeeper 实 例 

14 ZooKeeper zk; 

15 

16// 创 建 Watcher 实 例 

17 Watcher wh=new Watcher () { 

18 public void process (WatchedEvent event) { 

19 System.out.println (event.toString () ) ; 

20} 

21}; 

22 


23// 初 始 化 Zookeeper 实 例 

24 public void createZKInstance () throws I0Exception{ 

25 zk=new ZooKeeper ("localhost: 2181", 
ZooKeeperInstance.SESSION_ 

TIMEOUT, this.wh) ; 

26} 

27 

28// 关 闭 ZK 实 例 

29 public void ZKclose () throws InterruptedException{ 

30 zk.close () ; 

31} 

32} 


在 ZooKeeper 中 的 组 机 制 也 同样 是 通过 ZooKeeperT 点 来 实现 的 。 
一 个 Znode 为 一 个 目录 ， 即 代表 着 一 个 组 。 这 里 我 们 创建 了 一 个 名 
为 /ZKGroup” 的 组 。 详 见 代 码 清单 15-10 。 


代码 清单 15-10 CreateGroup 


package cn.edu.ruc.cloudcomputing.book.chapter15; 
import java.io. IOException; 


import org.apache.zookeeper.CreateMode; 
import org.apache.zookeeper .KeeperException; 
import org.apache.zookeeper .ZooDefs. Ids; 


9 public class CreateGroup extends ZooKeeperInstance{ 

10 

11// 创 建 组 

12// 参 数 : groupPath 

13 public void createPNode (String groupPath) throws 
KeeperException, 

InterruptedException{ 

14// 创 建 组 

15 String cGroupPath=zk.create (groupPath, "group".getBytes () , 
Ids.OPEN_ 

ACL_UNSAFE, CreateMode.PERSISTENT) ; 

16// 输 出 组 路 径 

17 System.out.printin ("创建 的 组 路 径 为 "+cGroupPath) ; 

18} 


19 

20 public static void main (String[]args) throws IOException, 
KeeperException, 

InterruptedException{ 

21 CreateGroup cg=new CreateGroup () ; 

22 cg.createZKInstance () ; 

23 cg.createPNode ("/ZKGroup") ; 

24 cg.ZKclose () ; 

25} 

26} 


在 创建 组 操作 完成 之 后 ， 我 们 需要 将 成 员 加 入 到 组 当中 ， 也 就 是 
将 节点 加 入 到 组 节点 的 目录 下 ， 成 为 其 子 节点 。 在 创建 节点 之 前 ， 首 
先 需 要 调用 exists () 画 数 来 判断 组 目录 是 否 存 在 。 此 程序 中 创建 了 一 
个 MultiJoin () 函数 ， 它 通过 一 个 计数 器 为 组 节点 创建 10 个 子 季 点 
详 见 代码 清单 15-11。 


o 


代码 清单 15-11 JoinGroup 


package cn.edu.ruc.cloudcomputing.book.chapter15; 
import java.io. IOException; 
import org.apache.zookeeper .CreateMode; 


import org.apache.zookeeper .KeeperException; 
import org.apache.zookeeper .ZooDefs.Ids; 


ONOWIRWN EF 


9 public class JoinGroup extends ZooKeeperInstance{ 

10// 加 入 组 操作 

11 public int Join (String groupPath, int k) throws 
KeeperException, 

InterruptedException{ 

12 String child=k+""; 

13 child="child_"+child; 

14 

15// 创 建 的 路 径 

16 String path=groupPath+"/"+child; 

17// 检 查 组 是 否 存 在 


18 if (zk.exists (groupPath, true) ! =null) { 

19// 如 果 存 在 ， 加 入 组 

20 zk.create (path, child.getBytes () , Ids.OPEN_ACL_UNSAFE, 

CreateMode.PERSISTENT) ; 

21 return 1; 

22} 

23 else{ 

24 System.out.printin ("组 不 存在 ! ") ; 

25 return @; 

26} 

27} 

28 

29// 加 入 组 操作 

30 public void MultiJoin () throws KeeperException, 
InterruptedException{ 

31 for (int i=0; i<10; i++) { 

32 int k=Join ("/ZKGroup", i) ; 

33// 如 果 组 不 存在 则 退出 

34 if (0==k) 

35 System.exit (1) ; 

36} 

37} 

38 public static void main (String[]args) throws IOException, 
KeeperException, 

InterruptedException{ 

39 JoinGroup jg=new JoinGroup () ; 

40 jg.createZKInstance () ; 

41 jg.MultiJoin () ; 

42 jg.ZKclose () ; 

43} 

44} 


在 加 入 组 操作 完成 之 后 ， 我 们 通过 getChildren () 函数 来 列 出 所 
有 组 的 成 员 〈 即 获取 组 目录 下 的 所 有 和 孩子 节点 ) 。 详 见 代码 清单 15- 
12: 


代码 清单 15-12 ListMembers 


1 package cn.edu.ruc.cloudcomputing.book.chapter15; 
2 
3 import java.io. IOException; 


4 import java.util.List; 

5 

6 import org.apache.zookeeper .KeeperException; 
7 

8 


public class ListMembers extends ZooKeeperInstance{ 
public void list (String groupPath) throws KeeperException, 


Ko) 


InterruptedException{ 


10// 获 取 所 有 子 节 点 

11 List<String>children=zk.getChildren (groupPath, false) ; 
12 if (children.isEmpty () ) { 

13 System.out.println ("组 "+groupPath+" 中 没有 组 成 员 存 在 ! ") ; 
14 System.exit (1) ; 

15} 

16 for (String child: children) 

17 System.out.printin (child) ; 

18} 

19 

20 public static void main (String[]args) throws IOException, 


KeeperException, 


InterruptedException{ 

21 ListMembers lm=new ListMembers () ; 
22 1m.createZKInstance () ; 

23 lm.list ("/ZKGroup") ; 

24} 

25} 


在 执行 删除 组 操作 时 ， 我 们 首先 需要 删除 组 目录 下 的 所 有 成 员 ， 


当 组 目录 空 时 ， 再 将 组 目录 删除 。 那 么 ， 这 过 程 中 首先 就 需要 调用 
getChildren () 函数 ， 获 取 组 日 录 的 所 有 成 员 ， 然 后 调用 delete () K 
数 将 其 一 一 和 删除。 最 后 删除 组 目录 。 详 见 代码 清单 15-13。 


代码 清单 15-13 DelGroup 


package cn.edu.ruc.cloudcomputing.book.chapter15; 


import java.io.IOException; 
import java.util.List; 


import org.apache.zookeeper .KeeperException; 
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8 public class DelGroup extends ZooKeeperInstance{ 

9publicvoiddelete(StringgroupPat 
h)throwsKeeperException, 

InterruptedException{ 

10 List<String>children=zk.getChildren (groupPath, false) ; 

11// 如 有 果 不 空 ， 则 进行 删除 操作 

12 if (! children.isEmpty () ) { 

13// 删 除 所 有 子 市 点 

14 for (String child: children) 

15 zk.delete (groupPath+"/"+child, -1) ; 

16} 

17// 删 除 组 目录 节点 

18 zk.delete (groupPath, -1) ; 

19} 

20 

21 public static void main (String args[]) throws IOException, 
KeeperException, 

InterruptedException{ 

22 DelGroup dg=new DelGroup () ; 

23 dg.createZKInstance () ; 

24 dg.delete ("/ZKGroup") ; 

25 dg.ZKclose () ; 

26} 

27} 


限于 篇 幅 ， 本 章 只 介绍 了 关于 Zookeeper 的 一 些 基 本 知识 ,希望 大 
家 通过 本 章 的 学 习 能 够 对 ZooKeeper 的 机 制 有 一 个 全 面 的 了 解 。 另外， 
希望 大 家 能 够 亲自 动手 编写 Zookeeper 程 序 ， 这 样 可 以 促进 对 
ZooKeeper 更 深入 的 了 解 。 


15.8 BooKeeper 


BooKeeper 具 有 副本 的 功能 ， 目 的 是 提供 可 靠 的 日 志 记 录 。 在 
BooKeeper 中 ， 服 务 器 被 称 为 账本 (Bookies) ， 在 账本 之 中 有 不 同 的 
账户 (Ledgers) ， 个 账户 由 一 条 条 的 记录 (Entry) 组 成 。 如 果 使 

普通 的 磁盘 存储 日 志 数 据 ， 那 么 日 志 数 据 可 能 遭 到 破坏 ， 当 磁盘 发 
生 故 障 的 时 候 ， 日 志 也 可 能 被 丢失 。BooKeeper 为 每 一 份 日 志 提 供 了 
分 布 式 的 存储 ， 并 且 采 用 了 大 多 数 (quorum， 相 对 于 全 体 ) 的 概念 ， 
也 束 是 说 ， 只 要 集群 中 的 大 多 数 机 妖 可 用 ， 那 么 该 日 志 一 直 有 效 。 


BooKeeper 通 过 客户 端 进行 操作 ， 客 户 问 可 以 对 BooKeeper 进 行 添 
加 账户 、 打 开 账 户 、 添 加 账户 记录 、 读 取 账 户 记录 等 操作 。 画 外 ， 
BooKeeper 的 服务 依赖 于 ZooKeeper， 可 以 说 BooKeeper 是 依赖 于 
ZooKeeper 的 一 致 性 及 分 布 式 的 特点 在 其 之 上 提供 了 另外 一 种 可 靠 性 服 
务 。 如 图 15-12 为 BooKeeper 的 架构 。 


从 上 图 中 可 以 看 出 ，BooKeeper 中 总 共 包 含 四 类 角色 ， 分 别 为 : 
账本 (Bookie) 、 账 户 (Ledger) 、 客 户 端 (BooKeeper Client) 以 及 
元 数据 存储 服务 (Metadata Storage Service) 。 下 面 我 们 来 简单 介绍 这 
四 类 角色 的 功能 。 


账本 (Bookie) : 账本 是 BookKeeper 的 存储 服务 器 ， 它 存储 的 是 
一 个 个 的 账本 ， 可 以 将 账本 理解 为 一 个 节点 。 在 一 个 BookKeeper 系 统 
中 存在 有 多 个 账本 (节点) ， 每 个 账户 被 不 同 的 账本 所 存储 。 阁 要 写 
一 条 记 杂 到 指定 的 账户 中 ， 该 记录 将 被 写 到 维护 该 账户 的 所 有 账本 市 
点 中 。 为 了 提高 系统 的 性 能 ， 这 条 记录 并 不 是 真正 地 被 写 入 到 所 有 市 
扩 中 ， 而 是 选择 集群 的 一 个 大 多 数 集 进行 存储 。 该 系统 独 有 的 特性 使 
得 BookKeeper 系 统 有 民 好 的 扩展 性 。 即 ， 我 们 可 以 通过 简单 地 添加 机 
右 节 扩 的 方法 提高 系统 的 容量 。 


应 用 程序 
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15-12 ”BooKeeper 架 构 
账户 (Ledger) : 账户 中 存储 的 是 一 系列 的 记录 (Entry) ， 每 一 
条 记录 包含 一 定 的 字段 。 记 录 通 过 写 操作 一 次 性 写 入 ， 只 能 进行 附加 
操作 不 能 进行 修改 。 每 条 记录 包含 如 下 字段 ， 见 表 15-6。 


表 15-6 BookKeeper 记录 格式 


E 7 Hi vA 


KAS 记录 所 在 账户 的 id 


7 ng 
上 条 记录 号 一 条 存储 记录 的 id 
ti 记录 的 值 ， 由 应 用 程序 提供 
认证 三 记录 共 他 字段 的 认证 码 信息 


当 满足 下 列 两 个 条 件 时 ， 某 条 记录 才 被 认为 是 存储 成 功 : 
1) 之 前 所 记录 的 数据 被 账本 节点 的 大 多 数 集 所 存储 ; 
2) 该 记录 被 账本 节点 的 大 多 数 集 所 存储 。 


客户 端 (BookKeeper Client) : 客户 端 通常 与 BookKeeper 应 用 程 
序 进行 交互 ， 它 允许 应 用 程序 在 系统 上 进行 操作 ， 包 括 创建 账户 ， 写 
账户 等 。 


元 数据 存储 服务 (Metadata Storage Service) : 元 数据 信息 存储 在 
ZooKeeper 集 群 当 中 ， 它 存储 关于 账户 和 账本 的 信息 ， 例 如 ， 账 本 由 集 
群 中 的 哪些 节点 进行 维护 ， 账 户 由 哪个 账本 进行 维护 等 。 


应 用 程序 在 使 用 账本 的 时 候 ， 首 先 需要 创建 一 个 账户 。 在 创建 账 
户 时 ， 系 统 首先 将 该 账本 的 Metadata 信 息 写 入 到 ZooKeeper 中 。 每 一 个 
账户 在 某 一 时 刻 只 能 有 一 个 写实 例 。 在 其 它 实例 进行 读 操 作 之 前 首先 
需要 将 写实 例 关 闭 。 如 采写 操作 由 于 故障 而 未 能 正 溃 关 财 ， 那 么 下 一 
个 尝试 打开 账户 的 实例 将 需要 首先 对 其 进行 恢复 并 正确 关闭 写 操作 。 


在 进行 写 操作 时 同时 需要 将 最 后 一 次 的 写 记 隶 存储 到 ZooKeeper 中 ， 
此 恢复 程序 仅 需 要 在 ZooKeeper 中 查看 该 账户 所 对 应 的 最 后 一 条 写 记 
杂 ， 然 后 将 其 正确 地 点 写 入 到 账户 中 ， 再 正确 关闭 写 操作 。 在 
BookKeeper 中 该 恢复 程序 由 系统 目 动 执行 ， 不 需要 用 户 的 参与 。 


15.9 本草 小 结 


ZooKeeper 作 为 Hadoop 项 目的 一 个 子 项 目 ， 是 Hadoop 集 群 管理 中 
一 个 必 不 可 少 的 模块 。 它 主要 用 来 控制 集群 中 的 数据 ， 如 管理 Hadoop 
集群 中 的 NameNode， 以 及 Hbase 中 的 Master Election、Server 之 间 的 状 
态 同 步 等 。 除 此 之 外 ， 它 还 在 其 他 多 种 场合 中 发 挥 着 重要 的 作用 。 


本 草 介 绍 了 ZooKeeper 的 基本 知识 ， 以 及 ZooKeeper 的 配置 、 使 用 
和 管理 等 内 容 。 另 外 还 深入 挖掘 了 ZooKeeper 重 要 功能 的 实现 机 制 ， 并 
介绍 了 它 的 某 些 应 用 场景 。ZooKeeper 作 为 一 个 用 于 协调 分 布 式 程序 的 
服务 ， 必 将 在 更 多 的 场合 发 挥 越 来 越 重 要 的 作用 。 
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16.1 Avro 介 绍 


Avro 作 为 Hadoop 下 相对 独立 的 于 项目 ， 是 一 个 数据 序列 化 的 系 
统 。 类 似 于 其 他 序列 化 系统 ，Avro 可 以 将 数据 结构 或 对 象 转化 成 便于 
存储 或 传输 的 格式 ， 竺 别 是 在 设计 之 初 它 可 以 用 来 文 持 数据 密集 型 应 
H, 天 合 于 大 规模 数据 的 存储 和 交换 。 总 之 ，Avro 可 以 提供 以 下 一 些 
特性 和 功能 : 


丰富 的 数据 结构 类 型 ; 

快速 可 压缩 的 二 进 制 数据 形式 ; 
存储 持久 数据 的 文件 容器 ; 
远程 过 程 调用 (RPC) ; 

简单 的 动态 语言 结合 功能 。 


Avro 和 动态 语言 结合 后 ， 读 写 数据 文件 和 使 用 RPC 协 议 都 不 需要 
生成 代码 了 ， 而 代码 作为 一 种 可 选 的 优化 只 需要 在 静态 类 型 语言 中 实 
现 。 


Avro 依赖 于 模式 (Schema) 。Avro 数 据 的 读 / 写 操作 很 频繁 ， 而 这 
些 操 作者 需要 使 用 模式 ， 这 样 可 减少 写 入 每 个 数据 资料 的 开销 ， 使 得 


序列 化 快速 而 又 轻巧 。 这 种 数据 及 其 模式 的 目 我 摘 述 方便 了 动态 脚本 
语言 的 使 用 。 


当 Avro 数 据 存储 到 文件 中 时 ， 它 的 模式 也 随 之 存储 ， 这 样 任何 程 
序 都 可 以 对 文件 进行 处 理 。 如 末 读 取 数 据 时 使 用 的 模式 与 写 入 数据 时 
使 用 的 模式 不 同 ， 那 也 很 容易 解决 ， 因 为 读 取 和 写 入 的 模式 都 是 已 知 
的 。 图 16-1 表 示 的 是 Avro 的 主要 作用 ， 它 将 用 户 定 义 的 模式 和 具体 的 
数据 编码 成 二 进 制 序 列 存储 在 对 象 容 右 文件 中 ， 假 设 用 户 定 义 了 包含 
学 号 、 姓 名 、 院 系 和 电话 的 学 生 模式 ， 那 么 Avro 对 其 进行 编码 后 存储 
在 student.db 文 件 中 ， 其 中 存储 数据 的 模式 放 在 文件 头 的 元 数据 中 ， 这 
样 即 使 读 取 的 模式 与 写 入 的 模式 不 同 ， 也 可 以 迅速 地 读 出 数据 ， 如 采 
另 一 个 程序 需要 获取 学 生 的 姓名 和 电话 ， 只 需 定 义 包含 姓名 和 电话 的 
学 生 模 式 ， 然 后 用 此 模式 去 读 取 容 右 文件 中 的 数据 即 可 。 


16-1 Avro 的 主要 作用 


当 在 RPC 中 使 用 Avro 时 ， 服 务 器 和 客户 端 可 以 在 握手 连接 时 交换 
模式 。 服 务 器 和 客户 端 有 彼此 全 部 的 模式 ， 因 此 含有 相同 命名 字段、 


RAF RAMS RFE SZ BEAT, a BOSE — Bee [al ease BY 
以 容易 地 解决 。 如 图 16-2 所 示 ， 协 议 中 定义 了 用 于 传输 的 消息 ， 消 居 
使 用 框架 后 放 入 缓冲 区 中 进行 传输 ， 由 于 传输 的 初始 束 交 换 了 各 目的 
协议 定义 ， 即 使 传输 双方 使 用 的 协议 不 同 ， 所 传输 的 数据 也 能 够 正确 
解析 ， 具 体 过 程 将 在 后 面 介绍 。 


16-2 RPC 使 用 Avro 


Avro 模 式 是 用 JSON (一 种 轻 量 级 的 数据 交换 模式 ) 定义 的 ， 这 样 
对 于 已 经 拥有 JSON 库 的 语言 来 说 束 可 以 容易 地 实现 。 


Avro 提供 与 诸如 Thrift 和 Protocol Buffers 等 系统 相似 的 功能 ， 但 是 
在 一 些 基础 方面 还 是 有 区 别 的 ， 主 要 表现 在 以 下 几 个 方面 : 


动态 类 型 : Avro 并 不 需要 与 生成 代码 、 模 式 和 数据 存放 在 一 起 ， 
而 整个 数据 的 处 理 过 程 并 不 生成 代码 、 静 仿 数 据 类 型 等 。 这 方便 了 数 
据 处 理 系统 和 语言 的 构造 。 


未 标记 的 数据 : 因为 读 取 数 据 的 时 候 模 式 是 已 知 的 ， 所 以 需要 和 
数据 一 起 编码 的 类 型 信息 束 很 少 了 ， 这 样 序列 化 的 规模 也 束 小 了 。 


不 需要 用 户 指 定 字段 号 ; 即使 模式 发 生 了 改变 ， 但 是 新旧 模式 都 
征 已 知 的 ， 所 以 处 理 数 据 时 可 以 通过 使 用 字段 名 称 来 解决 差异 问题 。 


下 面 详 细 介绍 模式 的 声明 和 Avro 的 具体 使 用 。 


16.1.1 模式 声明 


模式 声明 主要 是 定义 数据 的 类 型 ，Avro 中 的 模式 可 以 使 用 JSON 通 
WE RATHER © 


1) JSON 字 符 串 ， 指 定 已 定义 的 类 型 。 
2) JSON 对 象 ， 其 形式 为 : 


{"type": "typeName"......attributes......} 


其 中 ，typeName 可 以 是 原生 的 或 衍生 的 类 型 名 称 ， 本 章 没有 定义 
的 属性 可 以 视 为 元 数据 ， 但 是 其 不 能 影响 序列 化 数据 的 格式 。 


3) JSON 数 组 ， 表 示 航 入 类 型 的 联合 。 


声明 的 类 型 必须 是 Avro 所 文 持 的 数据 类 型 ， 其 中 包括 原始 类 型 
(Primitive Types) 和 复杂 类 型 (Complex Types) ， 下 面 分 别 介绍 它 
们 。 


原始 类 型 名 称 包括 以 下 几 部 分 
null: 没有 值 ; 


boolean: 二 进 制 值 ; 


int: 32 位 有 符号 整数 ; 

long: 64 位 有 符号 整数 ; 

float: 单 精度 (32 位 ) IEEE 754 浮 点 数 ; 
double: 双 精 度 (64 位 ) IEEE 754 浮 点 数 ; 
bytes: 8 位 无 符号 字 节 序列 ; 


string: unicode 字 符 序 列 。 


原始 类 型 没有 特定 的 属性 ， 其 名 称 可 以 通过 类 型 来 定义 ， 如 模 
陈 "string" 相 当 于 : 


{"type": "string"} 


Avro 文 持 六 种 复杂 类 型 : 记录 (records) 、 枚 举 (enums) 、 数 组 


(arrays) ` PREY (maps) 、 联 合 (unions) 和 固定 型 (fixed) ， 下 面 


一 一 介绍 。 
(1) 记录 (records) 
记录 使 用 类 型 名 称 “record” 并 旦 支持 以 下 属性 : 


name: 提供 记录 名 称 的 JSON 字 符 串 (必须 ) 。 


namespace: 限定 名 称 的 JSON 字 人 符 串 。 


doc: 向 模式 使 用 者 提供 说 明 的 JSON 字 符 串 《可 选 ) 。 


aliases: 字符 串 的 JSON 数 组 ， 为 记录 提供 代替 名 称 〈 可 选 ) 


field: 一 个 JSON 数 组 ， 用 来 列 出 字段 (必须 ) 。 每 个 字段 就 是 一 
个 JSON 对 象 量 拥有 以 下 属性 。 


‘name: 提供 记录 名 称 的 JSON 字 符 串 (必须 ) 。 
‘doc: 为 使 用 者 提供 字段 说 明 的 JSON 字 符 串 (可 选 ) 。 


‘type: 定义 模式 的 JSON 对 象 ， 或 者 记录 定义 的 JSON 字 符 串 ( 必 
Ml) ° 


‘default: 该 字段 的 默认 值 用 于 读 取 缺 少 该 字段 的 实例 〈 可 选 ) 。 
如 表 16-1 所 示 ， 人 允许 的 值 依赖 于 字段 的 模式 类 型 。 联 合 字段 的 默认 值 
对 应 于 联合 中 的 第 一 个 模式 。 字 下 和 固定 字段 的 黑 认 值 是 JSON 字 符 ， 


这 里 0~255 的 Unicode 有 映射 到 0~255 的 8 位 无 符号 字 节 。 


‘order: 指定 该 字段 如 何 影 响 记 录 的 排序 (可 选 ) 。 有 效 的 值 
有 “ascending”(〈 默 认 ) 、“descending” 或 “ignore”。 


‘aliases: 字符 串 的 JSON 数 组 ， 为 该 字段 提供 可 选 的 名 称 (可 
选 ) 。 
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例如 ， 一 个 64 位 的 链表 可 以 定义 为 : 

{ 

"type": "record", 

"name": "LongList", 

"aliases": ["LinkedLongs"]，// 别 名 

"Fields": [ 

{"name": "value", "type": "long"}, //##*7t2 整 型 


{"name": "next", "type": ["LongList", "null"]} 


// 下 一 元 素 
] 
} 


(2) 枚 举 (enums) 


枚 举 使 用 类 型 名 称 <enum> 并 且 支 持 以 下 几 种 类 型 。 


name: 提供 实例 名 称 的 JSON 字 符 串 (必须 ) 


namespace: 限定 名 称 的 JSON 字 符 串 。 


aliases: 字符 串 的 JSON 数 组 ， 为 枚 举 提 供奉 代 名 称 E) 
doc: 对 模式 使 用 者 提供 说 明 的 JSON 字 符 串 《可 选 ) 


symbols: 列 出 标记 的 JSON 数 组 (必须 ) 。 枚 举 中 的 所 有 标记 必 
须 是 唯一 的 ， 不 允许 有 重复 的 标记 。 


例如 ， 纸 牌 游戏 可 以 定义 为 : 


{"type": "enum", 
"name": "Suit", 
"symbols": ["SPADES", "HEARTS", "DIAMONDS", "CLUBS" ] 


(3) 数组 (arrays) 


数组 使 用 类 型 名 称 “array” 并 且 支 持 一 个 属性 。 


items: 数组 项 目的 模式 。 

例如 ， 字 符 串 数组 可 以 定义 为 : 

{"type": "array", "items": "string"} 
(4) BRAY (maps) 


映射 使 用 类 型 名 称 “map” 并 且 支 持 一 个 属性 。 


values: 映射 值 的 模式 。 


映射 值 默 认为 字符 串 ， 例 如 ， 从 字符 串 到 长 整 型 的 映射 可 以 声明 
为 : 


{"type": "map", "Values": "long"} 


(5) 联合 (unions) 


联合 主要 使 用 JSON 数 组 表示 ， 例 如 可 以 用 ["string"，"null"] 声 明 一 
个 是 字符 串 或 者 null 的 模式 。 除 了 指定 的 记录 、 固 定型 (fixed) 和 榴 
举 外 ， 对 于 相同 的 类 型 ， 联 合 只 能 包含 一 个 模式 。 例 如 ， 联 合 中 不 多 
许 包 含 两 个 数组 类 型 或 两 个 映 味 类 型 ， 但 是 允许 包含 不 同名 称 的 两 种 
类 型 。 联 合 中 不 能 直接 包含 其 他 的 联合 。 


(6) 固定 型 〈fixed) 

固定 型 使 用 类 型 名 称 “fixed” 并 且 支 持 以 下 属性 。 

name: 固定 型 名 称 的 字符 串 (必须 ) 。 

namespace: 限定 名 称 的 字符 串 。 

aliases: 提供 替代 名 称 的 字符 串 的 JSON 数 组 (可 选 ) 。 


size: 说 明 每 个 值 的 字 节 数 的 整 型 〈 可 选 ) 。 


例如 ，16 字 市 大 小 的 固定 型 可 以 声明 为 : 
{"type": "fixed", "size": 16, "name": "md5"} 


记录 、 枚 举 和 固定 型 都 是 指定 的 类 型 ， 其 全 名 由 两 部 分 组 成 : 名 
称 和 命名 空间 。 全 名 为 由 点 分 开 的 名 字 序 列 ， 其 名 称 部 分 和 记录 字段 
名 字 必 须 : 


以 字母 A~Z 或 a~z 或 _ 开头 ; 

后 面 应 只 含有 A~Z、a~z、0~-9 或 _。 

在 记录 、 枚 举 和 固定 型 的 定义 中 ， 全 名 可 以 通过 以 下 几 种 方式 定 
X. o 

指定 名 称 和 命名 空间 。 如 使 用 名 称 "name": "X" 和 命名 空 


间 "namespace": "org.foo" 来 表示 全 名 org.foo.X。 


指定 全 名 。 如 采 指 定 的 名 称 中 包含 点 ， 则 可 以 使 用 名 称 作为 全 
和 名， 并 且 任 何 指定 的 命名 空间 都 将 被 忽略 。 如 使 用 名 


称 "name": "org.foo.X" FRE Z org.foo.X ° 


只 指定 名 称 ， 且 名 称 中 不 包含 点 。 这 种 情况 下 命名 空间 取 目 外 层 
的 模式 或 协议 ， 比 如 指定 名 称 "name": "X"， 其 所 在 记录 定义 的 字段 则 
为 org.foo.Y， 即 全 名 为 org.foo.X。 


总 结 以 上 后 两 种 情况 可 得 : 如 果 名 称 包 侣 点 ， 则 有 征 全 名 ; WRN 
包含 点 ， 则 命名 空间 默认 为 外 层 定义 的 命名 空间 。 原 始 类 型 没有 命名 
空间 并 且 它 们 的 名 称 也 不 能 定义 为 任何 命名 空间 。 


命名 的 类 型 和 字段 可 以 拥有 别名 。 为 方便 模式 的 发 展 和 处 理 不 同 
的 数据 集 ， 在 实现 中 可 以 选择 使 用 别名 将 作者 的 模式 《writer's 
schema) 映射 成 读者 的 模式 (reader’s schema) 。 使 用 别名 可 以 改变 作 
者 的 模式 ， 例 如 ， 如 果 作 者 的 模式 命名 为 "Foo"， 而 读者 的 模式 命名 
为 "bar" 且 别名 为 "Foo"， 那 么 在 读 取 时 即使 "Foo" 称 作 "Bar" 也 能 实现 。 
同 理 ， 如 果 数 据 曾 经 写成 字段 名 为 "x" 的 记录 ， 那 么 即使 是 字段 名 
为 "y" 别 名 为 "x" 的 记录 也 能 读 取 ， 尺 管 "x" 写 成 了 "y"。 


16.1.2 ”数据 序列 化 


模式 声明 后 束 可 以 根据 模式 写 入 数据 了 。 当 数据 存储 或 传输 时 和 需 
要 对 其 序列 化 ， 需 要 注意 的 是 ，Avro 数 据 和 其 模式 会 一 起 被 序列 化 。 
基于 Avro 的 RPC 系 统 必 须 保 证 远程 的 数据 接收 亏 拥 有 写 入 数据 的 模式 
副本 ， 因 为 读 取 数 据 时 写 入 数据 的 模式 是 知道 的 ， 所 以 Avro 数据 本 号 
不 需要 标记 类 型 信息 。 


通常 ， 序 列 化 和 还 原 序列 化 过 程 ( 见 图 16-1) 可 以 看 成 是 对 模式 
深度 优先 、 从 左 到 右 的 吉 历 过 程 ， 并 在 裔 历 过 程 中 序列 化 或 还 原 序列 


化 遇 到 的 原始 类 型 。 


Avro 指定 两 种 序列 化 编码 : 二进制 和 JSON。 在 这 两 种 序列 化 编码 
中 ， 因 为 二 进 制 编码 速度 快 且 生成 的 数据 量 小 ， 所 以 大 多 数 的 应 用 程 
序 使 用 二 进 制 编码 。 但 是 基于 调试 和 网 络 的 应 用 程序 有 时 使 用 JSON 编 
码 比 较 合适 。 下 面 完 介绍 各 种 类 型 的 二 进 制 编码 。 


原始 类 型 的 二 进 制 编码 有 如 下 几 种 。 
null 编 码 成 零 字 字 。 
boolean 编 码 成 单字 节 ， 值 为 0 (false) 或 1 (true) ° 


int 和 ]long 使 用 可 变 长 度 的 ZigZag 编 码 中 ， 如 表 16-2 所 示 。 


表 16-2 ZigZag 编码 举例 


float 占 4 字 广 ， 使 用 类 似 于 Java 中 floatToIntBits 的 方法 可 以 将 浮 点 
数 转 化 成 32 位 的 整 型 ， 然 后 编码 成 低 字 市 序 的 格式 。 


double 占 8 字 节 ， 使 用 类 似 于 Java 中 doubleToLongBits 的 方法 可 以 将 
双 精 度数 转化 


为 64 位 的 整 型 ， 然 后 编码 成 低 字 节 序 的 格式 。 
bytes 根 据 数据 的 字 节 编码 成 长 整 型 。 
string 根 据 UTF-8 字 符 集 编码 成 长 整 型 。 


如 果 UTF-8 字 从 集中 个 、'0'、'0' 的 十 六 进 制 分 别 为 66 6f 6f， 并 且 字 
符 串 "foo" 含 有 三 (编码 成 十 六 进 制 06) 个 字符 ， 那 么 "foo" 编 码 为 06 
66 6f 6f ° 


复杂 类 型 的 二 进 制 编码 方法 有 如 下 几 种 。 
(1) 记录 (records) 


通过 对 声明 的 每 个 字段 值 按 顺 序 编码 来 对 记录 进行 编码 。 换 句 话 
说 ， 记 杂 的 编码 由 每 个 字段 的 编码 串联 而 成 。 例 如 ， 记 录 模 式 的 代码 
aR: 


{ 

"type": "record", 
"name": "test", 
"fields": [ 


{"name": "tan "type": "long"}, 
{"name": "pi, "type": "string"} 
] 

t 


以 上 代码 中 ， 假 设 a 字 段 的 值 为 27 (十 六 进 制 为 36) ，b 字 段 的 值 
为 "foo" (十 六 进 制 为 06 66 6f 6f) ， 那 么 记录 的 编码 仅仅 是 这 些 编码 
的 串联 ， 即 十 六 进 制 序列 36 06 66 6f 6f ° 


(2) 枚 举 (enums) 


枚 举 按 整 型 编码 ， 其 中 整 型 代表 每 个 标志 在 模式 中 的 位 置 (从 0 开 
始 ) 。 例 如 ， 枚 举 模式 的 代码 如 下 : 


{"type": "enum", "name". "Foo", "symbols": [DA "Bl TESS, "D"]} 


上 面 的 例子 序列 化 时 将 被 编码 成 整 型 90~3， 其 中 0 代表 "A"，3 代 
表 "D"。 


(3) 数组 (arrays) 


数组 编码 成 一 系列 块 ， 每 个 块 包含 一 个 长 整 型 的 数值 ， 长 整形 的 
数值 组 成 为 数组 项 ， 其 中 最 后 一 块 为 0， 表 示 古 数组 的 结尾 ， 每 个 数组 
项 的 模式 都 会 编码 。 如 果 块 中 的 值 为 人 负数， 则 取 绝 对 值 ， 紧 跟 数 值 后 
面 的 块 的 大 小 为 长 整 型 ， 和 表示 块 中 的 字 节 数 。 如 果 只 映射 记录 部 分 字 
段 ， 则 利用 块 大 小 可 以 跳 过 部 分 数据 。 例 如 ， 数 组 模式 为 : 


{"type": "array", "items": "long"} 


对 于 包含 项 3 和 27 的 数组 ， 其 数组 包含 两 个 长 整 型 值 ， 其 中 数组 个 
数 “2” 使 用 ZigZag 编 码 成 十 六 进 制 为 04， 而 3 和 27 编 码 成 十 六 进 制 分 别 
为 06 和 36， 最 后 以 0 结尾 ， 其 数组 编码 成 : 04 06 36 00。 


这 种 块 表 示 方 法 允许 读 / 写 大 小 超过 内 存 绥 冲 的 数组 ， 因 为 在 不 知 
道 数 组 长 度 的 情况 下 就 可 以 开始 写 入 。 


(4) 映射 (maps) 


映射 的 编码 和 数组 相似 ， 也 十 编码 成 一 系列 块 ， 每 个 块 包 含 一 个 
长 整 型 值 ， 然 后 是 键 值 对 ， 值 为 0 的 块 表示 映射 的 结尾 。 如 有 果 块 的 值 为 
负数 ， 则 取 其 绝对 值 。 紧 跟 数 值 后 面 的 块 的 大 小 为 长 整 型 ， 表 示 块 中 
的 字 市 数 。 如 采 只 映射 记录 的 部 分 子 段 ， 则 利用 块 大 小 可 以 跳 过 部 分 
数据 。 


同 数组 一 样 ， 在 不 知道 映射 长 度 的 情况 下 束 可 以 写 入 ， 因 此 这 种 
块 的 表示 方法 也 允许 读 / 写 大 小 超过 内 存 缓冲 的 映射 。 


(5) 联合 (unions) 


联合 编码 时 先 写 入 一 个 长 整 型 值 表示 联合 中 每 个 模式 值 的 位 置 
(从 0 开始 ) ， 再 对 联合 中 的 值 编码 。 例 如 ， 联 合 模 式 
["string"，"null"] 应 如 此 编码 ，null 为 整数 1 (联合 中 null 的 索引 ， 使 用 
ZigZag 编 码 成 十 六 进 制 02) ; 字符 串 "a" 为 整数 0 (联合 中 "string" 的 索 


51) ; 随后 为 序列 化 的 字符 串 61， 所 以 最 后 这 个 联合 编码 应 为 00 02 
61° 


(6) 国定 型 (fixed) 


加 定型 实例 编码 可 使 用 模式 中 声明 的 子 市 数 。 对 于 编码 成 JSON 类 
型 ， 除 了 联合 之 外 ， 还 可 以 参照 表 16-1 中 JSON 类 型 与 Avro 类 型 的 对 应 
天 系 进行 编码 。 联 合 的 JSON 编 码 如 下 所 示 : 


如 果 值 为 null， 那 么 按照 JSJON null 来 编码 ; 


和 否则， 按照 带 有 名 称 / 值 的 JSON 对 象 进行 编码 ， 其 中 名 称 为 类 型 
名 称 ， 值 为 递归 编码 值 。 对 于 Avro 的 命名 类 型 (记录 、 固 定性 和 榴 
举 ) 将 使 用 用 户 指 定 的 名 称 ， 对 于 其 他 类 型 将 使 用 类 型 名 。 


例如 ， 对 于 联合 模式 ["null"，"string"，"Foo"]， 其 中 Foo 是 记录 名 
称 ， 应 如 此 编码 ;null 作为 null 编 码 ; 


字符 串 "a" 按 照 {"string": "av 编码 ; 


Foo 实 例 按照 {"Foo": {...... ymt, XE... } 表 示 一 个 Foo 实 例 
的 JSON 编 码 。 


需要 注意 的 是 ， 正 确 处 理 JSON 编 码 数据 仍 需 要 模式 ， 因 为 JSON 
编码 并 不 区 分 int 和 long、float 和 double、 记 录 (records) 和 映射 


(maps) 、 枚 举 (enums) 和 字符 串 (strings) 等 。 


[1] ZigZag 编 码 原 使 用 于 Protocol Buffers， 是 一 种 将 有 符号 数 映射 成 无 
符号 数 的 一 种 编码 方式 。 


16.1.3 ”数据 排列 顺序 


对 象 化 前 最 向 使 用 的 操作 就是 排序 ， 在 Avro 确 定 了 数据 标准 排列 
顺序 后 ， 殊 允许 系统 写 入 的 数据 可 以 被 男 外 的 系统 高 效 地 排序 了 ， 这 
苹 个 很 重要 的 优化 。 即 使 Avro 二 进 制 数据 还 没有 反 序 列 化 成 对 象 ， 也 
可 以 对 其 进行 高 效 排序 。 


要 对 拥有 相同 模式 的 数据 项 进行 比较 ， 可 以 采用 对 模式 的 深度 优 
先 、 从 左 到 右 递 归 成 对 的 方式 。 遇 到 不 能 匹配 的 项 即 按 原来 顺序 ， 比 
如 boolean 类 型 的 数据 和 int 类 型 的 数据 不 能 匹配 ， 那 惑 不 用 进行 排序 。 
具体 来 说 ， 相 同 模式 的 两 个 项 进行 比较 时 须 遵 从 下 面 的 规则 。 


nu 数据 总 是 相等 的 。 

boolean 类 型 中 false 排 在 true 的 前 面 。 

int、long、float 和 double 数 据 按照 数值 升序 排列 。 

bytes 和 fixed 数 据 根 据 8 位 无 符号 值 按照 字典 序 进 行 比较 。 


string 数 据 根据 Unicode 按 字典 友 进 行 比较 ， 要 注意 的 是 ， 对 字符 
串 而 言 ， 既 然 UTF-8 作 为 二 进 制 编码 使 用 ， 那 么 按 字 市 排序 和 按 字 符 
串 二 进 制 数据 排序 是 相同 的 。array 数 据 根据 元 素 按 字典 序 进行 比较 。 


enum 数 据 根据 枚 举 模式 中 符号 的 位 置 进 行 排序 。 例 如 ， 枚 举 的 符 
号 位 ["z"，"aq] 把 "z" 排 在 "a" 前 面 。 


union 数 据 完 按照 联合 的 分 文 进行 排序 ， 然 后 按照 分 文 的 类 型 排 
序 。 例 如 ， 联 合 ["int"，"string"] 中 ， 所 有 整 型 将 排 在 所 有 字符 型 值 
前 ， 而 整 型 和 字符 型 各 目 按 照 上 面 的 规则 排序 。 


record 数 据 根 据 字 段 按 了 字典 序 排序 。 如 末 字 段 指 定 其 顺序 为 : 


“"ascending", 其 值 排序 的 顺序 不 变 ; 
vdescending"， 其 值 排序 的 顺序 反 转 ; 
mignore"， 排 序 时 其 值 将 忽略 。 


map 数 据 不 进行 比较 。 放 图 比较 包含 映射 的 数据 是 非法 的 ， 除 非 
映射 是 “有 序 ” 的 ， 否 则 “忽略 ”记录 字段 。 


16.1.4 对 象 容器 文件 


序列 化 后 的 数据 需要 存 入 文件 中 。Avro 包 含 一 个 简单 的 对 象 容 盎 
文件 ， 一 个 文件 拥有 一 个 模式 ， 文 件 中 所 有 存储 的 对 象 必须 根据 模式 
使 用 二 进 制 编码 写 入 。 对 象 存储 在 可 以 压缩 的 块 中 ， 块 之 间 使 用 同步 
机 制 为 MapReduce 处 理 提 供 高 效 的 文件 分 离 。 文 件 中 可 能 包含 用 户 随 
意 指 定 的 元 数据 。 那 么 一 个 文件 包含 : 


SPE © 

一 个 或 多 个 文件 数据 块 。 

其 中 文件 头 包含 : 

4 个 字 节 ， 分 别 是 ASCII 码 的 o、b、j、1。 
包含 模式 的 文件 元 数据 。 

为 此 文件 随机 生成 的 16 字 节 同 步 器 。 
文件 的 元 数据 包含 : 

指示 元 数据 的 一 个 键 / 值 对 的 长 整 型 。 


BENT AAT EB BEATE ° 


所 有 以 "Avro" 开 头 的 元 数据 属性 是 保留 的 ， 以 下 文件 元 属性 主要 
用 本 


avro. Schema， 包 含 存 储 在 文件 中 对 象 的 模式 ， 如 JSON 数 据 ( 必 
Ml) 。 


avro. codec， 编 解码 絮 名 称 ， 其 编码 妖 用 来 压缩 诸如 字符 串 的 数 
据 块 。 需 要 实现 支持 "null" 和 "deflate" 编 解码 器 ， 如 果 没 有 编 解 码 器 ， 
那 假设 为 "null"。 


"null" 编 解码 器 不 需要 对 数据 解压 缩 ， 而 "deflate" 编 解码 器 使 用 文 
档 RFC1951 中 指定 的 deflate 算 法 写 入 数据 块 并 使 用 zlib 库 实现 ， 要 注意 
的 是 这 个 格式 (不 像 RFC1950 中 的 zlib 格 式 ) 没有 校 验 和 。 


一 个 文件 头 需 要 按照 如 下 模式 进行 描述 : 


{"type": "record", "name": "org.apache.avro.file.Header", 
"fields": [ 
{"name": "magic", "type": 
{"type": "fixed", "name": "Magic", "size": 4}}, 
{"name": "meta", "type": {"type": "map", "values": "bytes"}}, 
{"name": "sync", "type": {"type": "Fixed", "name": "Sync", "size": 
16}}, 
] 
} 
文件 数据 块 包括 : 


一 个 长 整 型 ， 用 于 指示 块 中 对 和 象 数目 。 


一 个 长 整 型 ， 用 于 表示 使 用 编 解码 絮 后 ， 所 在 块 中 序列 化 对 象 的 


字 节 大 小 。 
序列 化 对 象 ， 如 果 编 解码 器 是 指定 的 ， 则 用 它 进行 压缩 。 
16 字 节 的 文件 同步 器 。 


这 样 ， 即 使 不 用 反 序 列 化 ， 每 个 块 的 二 进 制 数据 也 可 以 高 效 获得 
或 跳 过 。 这 种 块 的 大 小 、 对 象 数 目 和 同步 妖 的 结合 可 以 检测 出 坏 的 块 
并 且 帮 助 保持 数据 的 完整 性 。 


图 16-3 表 示 了 对 象 容器 文件 的 具体 格式 。 


容器 文 伯 


a i 数据 抉 第 N 个 数据 块 | 数据 抉 


16-3 对象 容 禹 文件 的 具体 格式 


16.1.5 ”协议 声明 


当 Avro 用 于 RPC 时 ，Avro 使 用 协议 描述 远程 过 程 调用 RPC 接 口 。 
和 模式 一 样 ， 它 们 是 用 JSON 文 本 来 定义 的 。 协 议 是 带 有 以 下 属性 的 
JSON 对 象 : 


protocol， 协 议 名称 的 字符 串 (必须 ) 。 
namespace, SIRES PRAY AY EE FB ° 
doc， 摘 述 协议 的 可 选 字符 串 。 


types， 指 定 类 型 《记录 、 枚 举 、 固 定型 和 错误 ) 定义 的 可 选 列 
表 。 错 误 的 定义 和 记录 一 样 ， 只 不 过 错误 使 用 "error" 而 记录 使 
用 "record"， 要 注意 不 允许 对 指定 类 型 的 同 前 引用 。 


messages， 一 个 可 选 的 JSON 对 象 ， 其 键 是 消息 名 称 ， 值 是 对 象 ， 
任意 两 个 消息 不 能 拥有 相同 的 名 称 。 


模式 中 定义 的 名 称 和 命名 空间 规则 也 同样 适用 于 协议 。 下 面 介 
的 协议 消 恩 可 以 拥有 以 下 属性 : 


doc, YÄ EAS ati o 


request， 指 定 的 类 型 化 的 参数 模式 列表 (这 和 记录 声明 中 的 字段 
有 相同 的 形式 ) 


response, Min FRx ° 


error union， 所 声明 的 错误 模式 的 联合 〈 可 选 ) 。 有 效 的 联合 会 在 
声明 的 联合 前 面 加 上 "string"， 人 允许 传递 未 声明 的 “系统 ”错误 。 例 如 ， 
如 果 声 明 的 错误 联合 是 ["AccessError"]， 那 么 有 效 的 联合 
["string"，"AcessError"]。 如 条 没有 错误 声明 ， 那 么 有 效 的 错误 联合 
["string"]。 使 用 有 效 联合 错误 可 以 序列 化 ， 且 协议 的 JSON 声 明 只 能 包 

声明 过 的 联合 。 


one-way, 布尔 参数 〈 可 选 ) 


处 理 请 求 参 数列 表 相 当 于 处 理 没 有 名 称 的 记录 。 既 然 读 取 的 记录 
字段 列表 和 写 入 的 记录 字段 列表 可 以 不 同 ， 那 么 调用 者 和 响应 者 的 请 
求 参 数 也 可 以 不 同 ， 这 种 区 别 的 解决 方法 与 记录 字段 间 差 异 的 解决 方 
式 相 同 。 只 有 当 回 应 的 类 型 是 “null* 并 且 没 有 错误 列 出 的 时 候 ，one- 
way 参 数 才 为 真 。 


下 面 来 举 一 个 简单 的 HelloWorld 协 议 的 例子 ， 它 可 以 定义 为 : 


"namespace": "com.acme"，// 名 称 的 限定 
"protocol": "Helloworld"，// 协 议 名 称 
"doc": "Protocol Greetings"，// 协 议 的 说 明 
"types": [ 


{"name": "Greeting", "type": "record", "fields": [ 


{"name": "message", "type": "string"}]}, 
{"name": "Curse", "type": "error", "fields": [ 
{"name": "message", "type": "string"}]}], 
"messages": {// 消 息 

"hello": { 

"doc": "Say hello.", 

"request": [{"name": "greeting", "type": "Greeting"}], 
"response": "Greeting", 

"errors": ["Curse"] 

} 

} 


} 


16.1.6 协议 传输 格式 


消 恩 可 以 通过 不 同 的 传输 机 制 进行 传输 ， 而 传输 中 的 消 恩 则 是 一 
些 字 届 序列， 那么 传输 机 制 需 要 支持 : 


请 求 信息 的 传送 。 


对 应 啊 应 信息 的 接收 。 


服务 器 会 对 客户 机 的 请 求 信息 发 送 响 应 信息 ， 这 种 响应 机 制 就 是 
特定 传输 ， 例 如 在 HTTP 中 ， 由 于 HTTP 直 接 支持 请 求 和 响应 ， 所 以 这 
种 传输 是 透明 的 ， 但 是 利用 同一 套 接 字 传输 多 种 不 同 客 户 线程 的 时 候 
需要 用 特定 的 标识 来 区 分 不 同 客 户 的 信息 。 


传输 可 能 是 无 状态 的 也 可 能 是 有 状态 的 。 在 无 状态 传输 中 ， 是 候 
定 消息 发 送 没有 建立 连接 状态 。 而 有 状态 传输 则 建立 了 连接 ， 这 个 连 
接 可 以 用 来 传输 不 同 的 消息 。 下面 我 们 会 在 握手 (handshake) 部 分 中 
深入 分 析 。 


当 用 HTTP 协 议 进行 传输 时 ， 每 个 Avro 消息 交换 都 是 一 对 HTTP 请 
求 / 啊 应 。 一 个 Avro 协议 的 所 有 消 筷 共 吝 一 个 HITP 服 务 器 上 的 URL， 
正常 的 和 错误 的 Avro 消息 都 应 该 使 用 200 (OK) MMARI ° R Avro 
请 求 和 响应 是 HTTP 请 求 和 响应 的 整个 内 容 ， 但 也 可 能 使 用 大 量 的 编 


码 。HTTP 请 求 和 响应 的 内 容 类 型 应 该 指定 为 “avro/binary” 而 且 请 求 应 
该 使 用 POST 方法 生成 。Avro 使 用 HTTP 作 为 无 状态 传输 ° 


Avroy ZA HEAR Ba HA AA eK A, H ESR eB 
AUP HZ AA — J, FRR ACR EER YE o CREAR AS HR Se 
格式 如 下 ( 见 图 16-4) 


Al 16-4 消息 的 封装 


1) 由 一 系列 缓冲 区 组 成 ， 其 中 缓冲 区 包括 : 
4 个 字 节 ， 用 大 端 字 节 (big-endian) 方法 叫 表 示 的 缓冲 区 长 度 。 
缓冲 区 数据 。 


2) 最 后 以 空 字 节 (zero-length) 的 缓冲 区 结束 。 


WP ia RAM SSL, HEA eA, ER I ARRA 
NE PEA o HEGRE CTE FE FEU E Tes CL IAS TR] AS) SR TE REN 
EIR, tA TT AC ae BE ea OCH AES Se eS T° 
守 别 是 当 复制 大 量 二 进 制 对 象 时 ， 它 可 以 减少 读 / 写 的 次 数 。 例 如 ， 如 
果 RPC 参 数 中 包含 一 个 MB 大 小 的 文件 数据 ， 那 么 一 方面 ， 数 据 可 以 从 
文件 描述 符 直 接 复 制 到 套 接 字 上 ， 男 一 方面 ， 数 据 可 以 直接 写 入 文件 
描述 符 而 不 需要 进入 用 户 空间 。 


一 个 简单 且 值 得 推荐 的 框架 策略 是 ， 相对 于 那些 大 于 正常 输出 组 
冲 区 的 单个 二 进 制 对 象 建立 新 的 段 。 小 的 对 和 象 可 以 附加 在 缓冲 区 中 ， 
而 较 大 的 对 象 可 以 写 入 目 己 的 缓冲 区 中 。 当 读者 需要 读 取 大 的 对 和 象 
时 ， 可 以 直接 处 理 整个 缓冲 区 而 不 用 复制 。 


使 用 握手 的 目的 是 确保 客户 机 和 服务 右 有 对 方 的 协议 定义 ， 这 样 
客户 机 可 以 正确 地 对 啊 应 反 序列 化 ， 且 服务 右 可 以 正确 地 对 请 求 反 友 
列 化 。 客 户 机 和 服务 器 都 应 在 高 速 缓冲 区 中 保留 最 近 的 协议 ， 这 样 在 
大 多 数 情 况 下 ， 可 以 不 需要 额外 的 往返 网 络 交 换 或 重新 获取 全 部 传输 
协议 束 能 完成 握手 。 


在 完成 握手 过 程 后 执行 RPC 请 求 和 啊 应 ， 对 于 无 状态 的 传输 ， 在 
所 有 请 求 和 啊 应 之 前 都 要 进行 握手 ， 而 对 于 有 状态 的 传输 ， 在 成 功 啊 
应 之 前 ， 握 手 过 程 应 该 附加 在 请 求 和 啊 应 上 ， 之 后 整 不 需要 握手 了 。 


握手 过 程 使 用 以 下 记录 模式 ， 代 码 如 下 : 


"record", 

"name": "HandshakeRequest", "namespace": "org.apache.avro.ipc", 
"fields": [ 

{"name": "clientHash", 


"type": {"type": "fixed", "name": "MD5", "size": 16}}, 
{"name": "clientProtocol", "type": ["null", "string"]}, 
{"name": "serverHash", "type": "MD5"}, 
{"name": "meta", "type": ["null", 

{"type": "map", "Values": "bytes"}]} 


] 

} 

{ 

"type": "record", 

"name": "HandshakeResponse", "namespace": "org.apache.avro.ipc", 
"fields": [ 

{"name": "match", 


"type": {"type": "enum", "name": "HandshakeMatch", 
"symbols": ["BOTH", "CLIENT", "NONE" ]}}, 


{"name": "serverProtocol", 
"type": ["null", "string"]}, 
{"name": "serverHash", 


"type": ["null", {"type": "fixed", "name": "MD5", "size": 16}]}, 
{"name": "meta", "type": ["null", 
{"type": "map", "Values": "bytes"}]} 
] 
} 


客户 机 在 每 个 请 求 前 面 加 上 HandshakeRequest， 表 示 包 含 客户 机 
和 服务 器 协议 (dlientHash! =null, clientProtocol=null, serverHash ! 
=null) 的 哈 希 值 ， 这 里 哈 希 值 是 JSON 协 议 内 容 的 128 位 MD5 哈 希 值 。 
如 采 客 户 机 没有 连接 到 给 定 的 服务 右 ， 那 么 它 发 送 的 哈 希 值 就 是 对 服 
务 絮 哈 希 值 的 猜测 ， 否 则 它 会 发 送 之 前 从 服务 絮 中 获得 的 哈 希 值 。 服 
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1) match=BOTH, serverProtocol=null, serverHash=null。 如 果 客 户 
机 发 送 的 是 服务 器 协议 的 有 效 哈 希 值 ， 并 且 服 务 器 知道 响应 客户 机 哈 
希 值 的 协议 ， 那 么 请 求 是 完整 的 ， 并 且 响 应 数据 加 在 
HandshakeResponse 后 面 。 


2) match=CLIENT, serverProtocol! =null, serverHash! =null ° 如 
果 服 务 器 事前 知道 客户 机 的 协议 ， 而 客户 机 却 发 送 了 一 个 错误 的 服务 
器 协议 哈 希 值 ， 那 么 请 求 是 完整 的 并 且 响 应 数据 加 在 
HandshakeResponse 之 后 。 之 后 客户 机 必须 使 用 返回 的 协议 来 处 理 啊 
应 ， 并 且 在 高 速 缓存 中 保留 这 个 协议 和 与 服务 堪 通 信 的 哈 而 值 。 


3) match=NONE。 如 果 服 务 器 事先 不 知道 客户 机 的 协议 ， 且 服务 
器 的 协议 哈 希 值 是 错误 的 ， 则 serverHash 和 serverProtocol 的 值 可 能 也 为 
non-null。 在 这 种 情况 下 ， 客 户 机 必须 使 用 其 协议 文本 (clientHash ! 
=null, clientProtocol! =null, serverHash! =null) 重新 提交 它 的 请 求 ， 并 
且 服 务 器 应 该 以 正确 的 方式 响应 (match=BOTH, serverProtocol=null, 
serverHash=null) 。 另 外 meta 字 段 是 保留 字段 ， 用 于 以 后 增加 握手 的 
功能 。 


一 次 调用 包括 请 求 消 奶 和 与 之 对 应 的 结 末 啊 应 或 错误 消息 。 请 来 
和 啊 应 包含 可 扩展 的 元 数据 ， 两 种 消 恩 都 会 如 上 进行 框架 处 理 。 调 用 
请 求 的 格式 包括 以 下 几 种 : 


1) 请 求 元 数据 ， 即 类 型 值 的 映射 。 


2) 消息 名 称 ， 即 一 个 Avro 字符 串 。 


3) 消息 参数 ， 根 据 消息 请 求 声 明 对 参数 进行 序列 化 。 


当 消 妃 声明 为 单 回 的 并 通过 成 功 握手 啊 应 建立 有 状态 的 连接 ， 那 
么 不 需要 发 送 啊 应 数据 。 人 否则 需要 发 送 ， 发 送 的 调用 请 求 的 格式 如 
F: 


1) 响应 元 数据 ， 即 类 型 字 节 的 映射 。 


2) 单字 市 的 错误 标志 布尔 值 ， 然 后 ， 如 果 错 误 标 志 为 假 ， 消 息 啊 
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如 有 果 错 误 标 志 为 真 ， 即 为 错误 ， 序 列 化 每 个 消息 有 效 错 误 联 合 模 
at 
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高 位 存放 在 高 地 址 。 


16.1.7 模式 解析 


无 论 从 RPC 还 是 从 文件 中 获得 Avro 数 据 ， 由 于 模式 已 知 ， 读 者 都 
可 以 解析 数据 ， 但 十 那 个 模式 可 能 并 不 完全 是 所 期 望 的 模式 。 例 如 ， 
如 采 数 据 写 入 的 软件 版 本 与 读者 不 同 ， 那 么 记录 中 的 一 些 字 段 可 能 会 
增加 或 减少 ， 这 一 部 分 将 详 述 如 何 解 决 这 种 模式 区 别 。 


我 们 称 用 来 写 数据 的 模式 为 写 者 的 模式 ， 应 用 程序 期 望 的 模式 为 
读者 的 模式 。 两 个 模式 之 间 是 否 匹配 可 按照 下 面 的 规则 进行 判断 。 


1) 如 果 两 个 模式 符合 以 下 情况 之 一 则 为 匹配 ， 否 则 为 不 匹配 ， 并 
产生 错误 : 


模式 都 吓 数组 且 项 类 型 匹配 。 
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模式 都 是 枚 举 且 名 称 匹配 。 


模式 都 是 固定 型 且 大 小 和 名 称 匹配 。 


模式 都 是 记录 且 名 称 相同 。 


模式 是 其 中 之 一 为 联合 。 


两 个 模式 拥有 相同 的 原始 类 型 。 

写 者 的 模式 可 以 提升 为 读者 的 模式 ， 如 下 所 示 : 
:int 可 以 转化 为 Iong、float 或 者 double; 

-long 可 以 转化 为 foat 或 double; 

-float 可 以 转化 为 double。 


2) 如 果 两 个 都 是 记录 ， 则 : 


字段 的 顺序 可 以 不 同 ， 因 为 字段 是 通过 名 称 来 匹配 的 。 
有 相同 名 称 字段 的 模式 记录 十 递归 解析 的 。 


如 果 写 者 的 记录 中 包含 读 者 记 杂 中 没有 的 字段 ， 那 么 写 者 子 段 的 
值 将 被 忽略 。 


如 果 读 者 记录 模式 中 有 一 个 为 默认 值 的 字段 ， 并 且 写 者 的 模式 中 
没有 相同 名 称 的 字段 ， 那 么 读者 的 这 个 字段 应 该 使 用 默认 值 。 


如 果 读 者 记录 模式 中 有 一 个 没有 默认 值 的 字段 ， 并 且 写 者 的 模式 
中 没有 相同 名 称 的 字段 ， 那 么 将 发 出 错误 信和 号 


3) 如 果 两 个 都 是 枚 举 ， 且 写 者 的 符号 并 不 在 读者 的 枚 举 中 ， 那 么 
产生 错误 。 


4) 如 果 两 个 都 是 数组 ， 解 析 算 法 递归 应 用 于 读者 和 写 者 的 数组 项 
的 模式 。 


5) 如 果 两 个 都 是 映射 ， 解 析 算 法 递归 应 用 于 读者 和 写 者 映射 值 的 
模式 。 


6) 如 采 两 个 都 是 联合 ， 对 读者 联合 中 匹配 写 者 联合 模式 的 第 一 个 
模式 进行 递归 解析 ， 如 果 没 有 匹配 的 ， 将 产生 错误 。 


7) 如 果 读 者 为 联合 ， 而 写 者 的 不 是 ， 对 读者 联合 中 匹配 所 选 写 者 
模式 的 第 一 个 模式 进行 递归 解析 ， 如 果 没 有 匹配 的 ， 将 产生 错误 。 


8) 如 果 写 者 的 是 联合 ， 读 者 的 不 是 ， 且 读者 的 模式 匹配 所 选 写 者 
的 模式 ， 那 么 对 它 进行 递归 解析 ， 如 来 它们 不 匹配 ， 将 产生 错误 。 


模式 解析 时 将 忽略 模式 中 协议 说 明 的 "doc" 字 段 ， 因 此 ， 序 列 化 时 
模式 中 的 "doc" 部 分 将 被 抛弃 。 


16.2 ”Avro 的 C/C++ 实 现 


本 节 主 要 介绍 Avro 的 C/C++ 实现 ， 其 中 在 Avro CEF CARA 
Jansson (Jansson 为 编译 和 操控 JSON 数 据 的 C 语 言 库 ) ， 这 样 可 以 将 
JSON 和 解析 成 模式 结构 。 目 前 C/C++ 实现 支持 : 所 有 原始 和 复杂 数据 类 
型 的 二 进 制 编码 和 解码 ， 向 Avro 对 象 容器 文件 进行 存储 ; 模式 解析 、 
提升 和 映射 ， 写 入 Avro 数据 的 有 效 方式 和 无 效 方式 ， 但 C 语 言 接口 暂 
不 文 持 远程 过 程 调用 RPC 。 


Avro C 为 所 有 模式 和 数据 对 象 进行 引用 计数 ， 当 引用 数 降 为 零 时 
便 释 放 内 存 。 例 如 ， 创 建 和 释放 一 个 字符 串 : 
avro_datum_t string=avro_string ("This is my string") ; 


avro_datum_decref (string) ; 
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如 ， 创 建 市 有 字符 串 字 段 的 记录 : 


avro_datum_t example=avro_record ("Example") ; . 
avro_datum_t solo_field=avro_string ("Example field value") ; 


avro_record_set (example, "solo", solo_field) ; 


avro_datum_decref (example) ; 


在 这 个 例子 中 ，solo_field 数 据 没 有 被 释放 ， 因 为 它 有 两 个 引用 : 
原来 的 引用 和 隐藏 在 记录 Example 中 的 引用 。 调 用 avro_datum_decref 
(example) 只 能 将 引用 数 减 少 为 一 。 如 果 想 结束 solo_field 模 式 ， 则 需 


要 avro_datum_decref (solo_field) 来 完全 删除 solo_field 数 据 并 释放 。 


一 些 数据 类 型 是 可 以 “包装 ”和 “给 予 * 的 ， 这 可 以 让 C 程 序 员 目 由 地 
决定 谁 负责 内 存 的 分 配 回 收 。 以 字符 串 为 例 ， 建 立 一 个 字符 串 数 据 有 
SHAK: 


avro_datum_t avro_string (const char*str) ; 
avro_datum_t avro_wrapstring (const char*str) ; 
avro_datum_t avro_givestring (const char*str) ; 


如 果 使 用 avro_string， 那 么 Avro CSR Hil FF BHF AY S| EY 
释放 它 。 在 有 些 情况 下 ， 特 别 是 当 处 理 大 量 数据 时 要 避免 这 种 内 存 复 
制 ， 这 时 需要 使 用 avro_wrapstring 和 avro_givestring。 如 果 使 用 
avro_wrapstring， 那 么 Avro C 不 做 任何 内 存 处 理 ， 它 只 保存 指向 数据 的 
指针 ， 这 时 需要 自己 来 释放 字符 串 。 需 要 注意 的 是 ， 当 使 用 
avro_wrapstring 时 ， 在 用 avro_datum_decref () 取消 引用 数据 前 不 要 释 
放 字 符 串 。 如 果 使 用 avro_givestring， 那 么 Avro C 在 数据 取消 引用 之 后 
会 释放 字符 串 ， 从 某 种 程度 上 说 ，avro_givestring 将 释放 字符 串 的 “ 责 
EAT Avro C。 需 要 注意 的 是 ， 如 果 没 有 使 用 如 malloc 或 strdup 分 配 
堆 给 字符 串 ， 则 不 要 把 "责任 ”给 Avro C。 例 如 ， 不 能 这 样 做 : 


avro_datum_t bad_idea=avro_givestring ("This isn't allocated on 
the heap") ; 
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int avro_write_data (avro_writer_t writer, 
avro_schema_t writers_schema, avro_datum_t datum) ; 


如 果 省 略 writers_schema 值 ， 那 么 数据 在 发 送 给 写 数 据 的 函数 前 必 
须 检验 数据 格式 的 正确 性 。 如 果 已 经 确定 数据 是 正确 的 ， 那 么 可 以 设 
置 writers_schema 为 NULL， 这 时 Avro C 不 会 检查 格式 。 需 要 注意 的 
是 ， 写 入 Avro 文件 对 象 容器 的 数据 总 是 要 进行 验证 。 


下 面 介绍 一 个 位 单 例子 ， 例 子 中 建立 了 学 生 信 息 的 数据 库 ， 并 辣 
数据 库 中 读 写 记录 : 


/*student.c*/ 
#include<avro.h> 
#include<inttypes.h> 
#include<stdio.h> 
#include<stdlib.h> 
#include<unistd.h> 
avro_schema_t student_schema; 
/*id 用 于 添加 记录 时 为 学 生 建立 学 号 */ 
int64_t id=0; 
/* 定 义学 生 模 式 ， 拥 有 字段 学 号 、 姓 名 、 学 院 、 电 话 和 年 龄 */ 
#define STUDENT_SCHEMA\ 

"{\"type\": \"record\", \ 

\"name\": \"Student\", \ 

\"fields\": [\ 

{\"name\": \"SID\", \"type\": \"long\"}, \ 
{\"name\": \"Name\", \"type\": \"string\"}, \ 
{\"name\": \"Dept\", \"type\": \"string\"}, \ 
{\"name\": \"Phone\", \"type\": \"string\"}, \ 
{\"name\": \"Age\", \"type\": \"aint\"}]}" 


/* 把 JSON 定 义 的 模式 解析 成 模式 的 数据 结构 */ 

void init (void) 

{ 

avro_schema_error_t error; 

if (avro_schema_from_json (STUDENT_SCHEMA, 

sizeof (STUDENT _SCHEMA) , 

&student_schema, &error) ) { 

fprintf (stderr, "Failed to parse student schema\n") ; 
exit (EXIT_FAILURE) ; 


} 


H 

/* 添 加 学 生 记 录 */ 

void add_student (avro_file_writer_t db, const char*name, const 
char*dept, const 

char*phone, int32_t age) 

{ 

avro_datum_t student=avro_record ("Student", NULL) ; 

avro_datum_t sid_datum=avro_int64 (++id) ; 

avro_datum_t name_datum=avro_string (name) ; 

avro_datum_t dept_datum=avro_string (dept) ; 

avro_datum_t age_datum=avro_int32 (age) ; 

avro_datum_t phone_datum=avro_string (phone) ; 

/创建 学 生 记录 */ 

if (avro_record_set (student, "SID", sid_datum) 

| |avro_record_set (student, "Name", name_datum) 

| |avro_record_set (student, "Dept", dept_datum) 

| |avro_record_set (student, "Age", age_datum) 

| |avro_record_set (student, "Phone", phone_datum) ) { 

fprintf (stderr, "Failed to create student datum structure") ; 

exit (EXIT_FAILURE) ; 


} 

/* 将 记录 添加 到 数据 库 文件 中 */ 

if (avro_file_writer_append (db, student) ) { 

fprintf (stderr, "Failed to add student datum to database") ; 
exit (EXIT_FAILURE) ; 


} 

/* 解 除 引 用 ， 释 放 内 存 空 间 */ 
avro_datum_decref (sid_datum) ; 
avro_datum_decref (name_datum) ; 
avro_datum_decref (dept_datum) ; 
( 
( 


avro_datum_decref (age_datum) ; 

avro_datum_decref (phone_datum) ; 
avro_datum_decref (student) ; 

fprintf (stdout, "Successfully added%s\n", name) ; 


} 
/* 输 出 数据 库 中 的 学 生 信息 */ 


int show_student (avro_file_reader_t db, 
avro_schema_t reader_schema) 


{ 


int rval; 

avro_datum_t student; 

rval=avro_file_reader_read (db, reader_schema, &student) ; 
if (rval==0) { 

int64_t i64; 

int32_t i32; 

char *p; 

avro_datum_t sid_datum, name_datum, dept_datum, 
phone_datum, age_datum; 

if (avro_record_get (student, "SID", &sid_datum) ==0) { 
avro_int64_get (sid datum, &i64) ; 

fprintf (stdout, "%"PRId64"", i64) ; 


if (avro_record_get (student, "Name", &name_datum) ==0) { 
avro_string_get (name_datum, &p) ; 
fprintf (stdout, "%12s", p) ; 


if (avro_record_get (student, "Dept", &dept_datum) ==0) { 
avro_string_get (dept_datum, &p) ; 
fprintf (stdout, "%12s", p) ; 


if (avro_record_get (student, "Phone", &phone_datum) ==0) { 
avro_string_get (phone_datum, &p) ; 
fprintf (stdout, "%12s", p) ; 


if (avro_record_get (student, "Age", &age_datum) ==0) { 
avro_int32_get (age_datum, &i32) ; 

fprintf (stdout, "%d", i32) ; 

} 

fprintf (stdout, "\n") ; 

/* 释 放 记 录 */ 

avro_datum_decref (student) ; 


} 


return rval; 

} 

int main (void) 

{ 

int rval; 

avro_file_reader_t dbreader; 
avro_file_writer_t db; 
avro_schema_t extraction_schema, name_schema, 
phone_schema; 

int64 t i; 

const char*dbname="student.db"; 
init () 7 

/x* 如 果 student .db 存在 ， 则 删除 *7 
unlink (dbname) ; 


/* 创 建 数据 库 文件 */ 
rval=avro_file_writer_create (dbname, student_schema, &db) 
if (rval) { 

fprintf (stderr, "Failed to create%s\n", dbname) ; 
exit (EXIT_FAILURE) ; 


} 

/向 数据 库 文件 中 添加 学 生 信 息 */ 

add_student (db, "Zhanghua", "Law", "15201161111", 25) ; 
add_student (db, "Lili", "Economy", "15201162222", 24) ; 
add_student (db, "Wangyu", "Information", "15201163333", 25) ; 
add_student (db, "Zhaoxin", "Art", "15201164444", 23) ; 
add_student (db, "Sungin", "Physics", "15201165555", 25) ; 
add_student (db, "Zhouping", "Math", "15201166666", 23) ; 
avro_file_writer_close (db) ; 

fprintf (stdout, "\nPrint all the records from database\n") ; 
/* 读 取 并 输出 所 有 的 学 生 信 息 */ 

avro_file_reader (dbname, &dbreader) ; 

for (i=0; i<id; i++) { 

if (show_student (dbreader, NULL) ) { 

fprintf (stderr, "Error printing student\n") ; 
exit (EXIT_FAILURE) ; 

} 

} 


avro_file_reader_close (dbreader) ; 

/* 输 出 学 生 的 姓名 和 电话 信息 */ 

extraction_schema=avro_schema_record ("Student", NULL) ; 

name_schema=avro_schema_string () ; 

phone_schema=avro_schema_string () ; 

avro_schema_record_field_append (extraction_schema, 

"Name", name_schema) ; 

avro_schema_record_field_append (extraction_schema, "Phone", 
phone_schema) ; 

/* 只 读 取 每 个 学 生 的 姓名 和 电话 */ 

fprintf (stdout, 

"\n\nExtract Name&Phone of the records from database\n") ; 

avro_file_reader (dbname, &dbreader) ; 

for (i=0; i<id; i++) { 

if (show_student (dbreader, extraction_schema) ) { 

fprintf (stderr, "Error printing student\n") ; 

exit (EXIT_FAILURE) ; 

} 

} 


avro_file_reader_close (dbreader) ; 
avro_schema_decref (name_schema) ; 
avro_schema_decref (phone_schema) ; 
avro_schema_decref (extraction_schema) ; 
/* 最 后 释放 学 生 模式 */ 

avro_schema_decref (student_schema) ; 


J 


return 0; 


如 采 要 编译 上 面 的 C 文 件 ， 则 需要 安装 Avro C。 首 和 完 可 以 从 网 站 
http: //www.apache.org/dyn/closer.cgi/avro/ 选 择 镜像 下 载 avro-c- 
1.6.3.tar.gz 文 件 ， 使 用 命令 tar-zxvf avro-c-1.6.3.tar.gz 解 压 后 进入 其 目 
录 ， 并 使 用 命令 ./configure 和 make、make install 进 行 编译 安装 。 注 意 ， 
需要 在 root 的 权限 下 进行 安 狂 。 安 洲 成 功 后 ， 在 编译 C 语 言 前 需要 将 
libavro 加 入 动态 链接 库 中 ， 使 用 命令 : 


export LD_LIBRARY_PATH=/usr/local/lib: $LD_LIBRARY_PATH 


然后 对 程序 进行 编译 : 


gcc-o student-lavro student.c 


运行 生成 的 执行 文件 可 得 到 如 图 16-5 所 示 的 结果 。 运 行 时 在 当前 
目录 下 生成 student.db 对 象 容 右 文件 ， 可 以 使 用 命令 cat 人 碍 看 文件 中 的 内 
容 一 先 存 储 学 生 的 模式 ， 然 后 存储 学 生 的 记录 信息 ， 具 体内 容 可 参见 
16.1.4 人 “对 象 容 强 文件 ”和 图 16-3。 


16-5 “运行 结果 


下 面 介 绍 Avro 的 C++ 应 用 程序 接口 。 虽 然 Avro 并 不 需要 使 用 代码 
生成 器， 但 是 使 用 代码 生成 工具 可 以 更 简单 地 使 用 Avro C++ 库 。 代 三 
生成 此 既 可 以 读 取 模式 并 输出 模式 数据 的 C++ 对 象 ， 也 可 以 产生 代码 
来 序列 化 或 反 序 列 化 对 象 等 所 有 复杂 的 译 码 工作 。 即 使 使 用 C++ 核心 
库 来 编写 序列 化 右 或 者 解析 右 ， 产 生 的 代码 也 可 以 说 明 如 何 使 用 这 些 
库 。 下 面 举 一 个 使 用 模式 的 位 单 例子 ， 此 例 用 来 表示 一 个 虚数 : 


{ 


"type": "record", 
"name": "complex", 
"fields": [ 


{"name": "real", "type": "double"}, 
{"name": "imaginary", "type": "double"} 
] 

} 


假设 JSON 可 用 来 表示 存储 在 名 为 imaginary 文 件 中 的 模式 ， 那 么 产 
生 代 码 分 成 两 步 : 


第 一 步 : 


precompile<imaginary>imaginary.flat 


预 编译 会 将 模式 转化 为 代码 生成 器 所 使 用 的 中 间 格 式 ， 中 间 文 件 
征 模 式 的 文本 形式 ， 它 是 通过 对 模式 类 型 树 深 度 优先 过 历 得 到 的 。 


第 二 步 : 


python scripts/gen-cppcode.py--input=example.flat-- 
output=example.hh--namespace=Math 


EERTSE ERRAK REN ETA, HEE 
E 可 选 参数 将 指定 对 象 放置 的 命名 空间 ， 
如 果 没 有 指定 命名 空间 ， 仍 可 得 到 默认 的 命名 空间 。 下 面 是 所 产生 代 
码 的 开始 部 分 : 


namespace Math{ 
struct complex{ 
complex () : 

real () , 
imaginary () 

{} 

double real; 
double imaginary; 


}; 


以 上 代码 是 用 C++ 表 示 的 模式 ， 它 创建 记录 、 默 认 构 造 画 数 并 为 
记录 的 每 个 字段 建立 成 员 。 下 面 是 序列 化 数据 的 例子 : 


void serializeMyData () 
{ 

Math: complex cC; 
c.real=10.0; 
c.imaginary=20.0; 
//writer Æ ZRI oM 
avro: Writer writer; 
// 在 对 象 上 调用 writer 
avro: serialize (writer, c) ; 
// 这 时 ，writer 将 序列 化 后 的 数据 存储 在 缓冲 区 中 
InputBuffer buffer=writer.buffer () ; 

} 


KS 


PRINS 


使 用 生成 的 代码 ， 调 用 对 象 的 avro: serialize O K AFIM 
数据 ， 通 过 调用 avro: InputBuffer 对 象 可 以 获取 数据 ， 通 过 网 络 可 以 发 
送 文件 。 下 面 读 取 序 列 化 的 数据 到 对 象 中 : 


void parseMyData (const avro: InputBuffer &myData) 


Math: complex c; 
//reader 为 实际 I/0 读 取 的 对 象 

avro: Reader reader (myData) ; 
// 在 对 象 上 调用 reader 

avro: parse (reader, Cc) ; 

// 此 时 ，C 中 存放 的 是 反 序列 化 后 的 数据 
} 


在 下 面 的 代码 中 avro: serialize () EX#¢#lavro: parse () 函数 可 
用 于 处 理 用 户 数 据 类 型 ， 具 体 实 现 如 下 : 


template<typename Serializer> 

inline void serialize (Serializer&s, const complex&val, const 
boost: true_type&) 

{ 

s.writeRecord () ; 

serialize (s, val.real) ; 

serialize (s, val.imaginary) ; 

s.writeRecordEnd () ; 


template< typename Parser > 

inline void parse (Parser&p, complex&val, const boost: 
true_type&) { 

p.readRecord () ; 

parse (p, val.real) ; 

parse (p, val.imaginary) ; 

p.readRecordEnd () ; 

} 


以 下 内 容 也 可 加 入 avro 命 名 空间 中 : 


template<>struct is_serializable<Math: complex>: public 
boost: true_type{}; 


这 样 为 复杂 结构 建立 类 型 特征 ， 告 诉 Avro 对 象 的 序列 化 和 解析 功 


除了 上 面 介绍 的 使 用 Avro CHHL ERAR IREA AU, Avro 
C++ 也 可 以 读 入 JSON 模 式 。 库 函数 提供 了 一 些 工 具 来 读 取 存 储 在 
JSON 文 件 或 字符 串 中 的 模式 ， 如 下 所 示 : 


void readSchema () 


//My schema is stored in a file called"example" 
std: ifstream in ("example") ; 

avro: ValidSchema mySchema; 

avro: compileJsonSchema (in, mySchema) ; 


} 


上 面 代码 读 取 文件 并 将 JSON 模 式 解 析 成 avro: ValidSchema 类 型 的 
对 象 。 如 果 模 式 是 无 效 的 ， 将 无 法 建立 有 效 模 式 (ValidSchema) 对 象 


并 抛 出 异常 ， 那 么 如 何 从 JSON 存 储 的 模式 中 建立 有 效 模式 对 象 呢 ? 


有 效 模式 (ValidSchema) 可 以 保证 开发 者 实际 写 入 的 类 型 匹配 模 
式 所 期 望 的 类 型 。 现 在 重 写 序 列 化 函数 并 需要 检查 模式 : 


void serializeMyData (const ValidSchema&mySchema) 


Math: complex c; 

c.real=10.0; 

c.imaginary=20.0; 
//Validatingwriter 保 证 序列 化 写 入 正确 类 型 的 数据 
avro: Validatingwriter writer (mySchema) ; 


try{ 
avro: serialize (writer, 


c) ; 
// 这 时 ， ostringstream"os" 存 储 序列 化 后 的 数据 


catch (avro: Exception&e) { 
std: cerr<<"ValidatingWriter encountered an error: "<<e.what 


Q ; 

} 

} 

APARIA B Te YX. AM ValidatingWritert# T Writer 
object ° WRF TCH MRS AARRE, ELA 
ValidatingWriter 将 抛 出 异常 。ValidatingWriter 会 在 写 入 数据 的 时 候 增加 
很 多 处 理 过 程 。 对 于 产生 的 代码 则 没有 必要 进行 验证 ， 因 为 目 动 生成 
的 代码 是 匹配 模式 的 。 然 而 ， 在 写 入 和 测试 目 己 序列 化 的 代码 时 加 上 

全 验证 还 是 必要 的 。 解 析 数 据 时 也 可 以 使 用 有 效 模式 ， 它 不 仅 可 以 
确保 解析 器 读 取 的 类 型 匹配 模式 有 效 ， 还 提供 了 接口 ， 通 过 该 接口 可 
以 查询 下 一 个 期 望 的 类 型 和 记录 成 员 字 段 的 名 称 。 下 面 的 例子 介绍 了 
如 何 使 用 API: 


void parseMyData (const avro: InputBuffer&myData, const avro: 
ValidSchema&mySchema) 


{ 

// 手 动 解析 数据 ， 解 析 对 象 将 数据 绑 定 到 模式 上 

avro: Parser<ValidatingReader>parser (mySchema, myData) ; 
assert (nextType (parser) ==avro: AVRO_RECORD) ; 

// 开 始 解析 

parser.readRecord () ; 

Math: complex c; 

std: string recordName; 

assert (currentRecordName (parser, recordName) ==true) ; 
assert (recordName=="complex") ; 

std: string fieldName; 

for (int i=0; i<2; ++i) { 

assert (nextType (parser) ==avro: AVRO_DOUBLE) ; 

assert (nextFieldName (parser, fieldName) ==true) ; 

if (fieldName=="real") { 

c.real=parser.readDouble () ; 


else if (fieldName=="imaginary") { 
c.imaginary=parser.readDouble () ; 


else{ 
std: cout<<"I did not expect that! \n"; 


} 
} 


parser.readRecordEnd () ; 


} 


上 面 的 代码 表明 ， 如 果 编 译 时 不 知道 模式 ， 也 可 以 通过 写 出 解析 
数据 的 代码 在 运行 时 读 取 模式 ， 并 且 碍 询 ValidatingReader 来 了 解 序列 
化 数据 的 内 容 。 


在 目 己 的 代码 中 使 用 对 象 来 建立 模式 是 允许 的 ， 每 个 原始 类 型 和 
复合 类 型 都 有 模式 对 象 ， 并 且 它 们 拥有 共同 的 Schema 基 类 。 下 面 是 一 
个 为 复数 记录 数组 建立 模式 的 例子 : 


void createMySchema () 


{ 

// 首 先 建立 复数 类 型 
avro: RecordSchema myRecord ("complex") ; 

// 在 记录 中 加 入 字段 (每 个 字段 又 是 一 个 模式 ) 

myRecord.addField ("real", avro: DoubleSchema () ) ; 
myRecord.addField ("imaginary", avro: DoubleSchema () ) ; 
// 这 个 复数 记录 和 之 前 使 用 的 一 样 ， 下 面 为 这 些 记录 的 数组 建立 模式 
avro: ArraySchema complexArray (myRecord) ; 

// 如 果 模 式 是 无 效 的 将 抛 出 
avro: ValidSchema validComplexArray (complexArray) ; 
// 这 样 建立 好 了 模式 

// 输 出 到 屏幕 上 

validComplexArray.toJson (std: cout) ; 


} 


以 上 代码 建立 的 模式 可 能 是 无 效 的 ， 因 此 ， 为 了 使 用 模式 ， 需 要 
将 它 转 化 为 ValidSchma 对 象 。 执 行 上 述 代 码 可 以 得 到 : 


{ 

"type": "array", 
"items": { 

"type": "record", 
"name": "complex", 
"fields": [ 

{ 

"name": "real", 


"type": "double" 


{ 

"name": "imaginary", 
"type": "double" 

} 

] 

} 

} 


随 看 时 间 的 变化 ， 程 序 模式 期 望 的 数据 可 能 与 之 前 存储 的 数据 不 
同 ， 为 了 把 一 个 模式 转化 为 男 一 个 模式 ，Avro 提 供 了 不 完全 一 样 的 模 
式 规则 。 这 种 情况 下 ， 代 码 生 成 工具 就 有 用 了 ， 对 于 每 个 生成 的 结构 


都 会 建立 一 个 用 来 读 取 数 据 的 特别 索引 结构 ， 即 使 数据 是 用 不 同 的 模 
式 写 的 。 在 example.hh 中 的 索引 结构 如 下 : 


class complex_Layout: public avro: CompoundOffset{ 

public: 

complex_Layout (size_t offset) : 

Compoundoffset (offset) 

{ 

add (new avro: Offset (offset+offsetof (complex, real) ) ) ; 

add (new avro: Offset (offset+offsetof (complex, imaginary) ) ) ; 
} 

}; 


数据 前 若是 float 类 型 而 不 是 double 类 型 ， 根 据 模式 解决 规则 ， 
floats 可 以 升级 为 doubles， 只 要 新 旧 模 式 都 有 用 ， 就 会 建立 一 个 动态 的 
解析 器 来 读 取 代码 生成 结构 的 数据 。 如 下 所 示 : 


void dynamicParse (const avro: ValidSchema&writerSchema, 
const avro: ValidSchema&readerSchema) { 

// 实 例 化 布局 对 象 

Math: complex_Layout layout; 

// 创 建 已 知 类 型 布局 和 模式 的 模式 解析 器 

resolverSchema (writerSchema, readerSchema, layout) ; 

// 设 置 reader 

avro: ResolvingReader reader (resolverSchema, data) ; 
Math: complex c; 

// 执 行 解析 

avro: parse (reader, C) ; 

// 这 时 ，c 中 存放 的 是 反 序列 化 后 的 数据 
} 


16.3 ”Avro 的 Java 实 现 


本 市 主要 介绍 Avro 在 Java 中 的 实现 。Java API 现 在 的 版 本 是 1.6.3， 
其 中 主要 的 包 有 如 下 几 个 。 


org. apache.avro: Avro 内 核 类 。 

org. apache.avro.file: 存放 Avro 数据 的 文件 容 髓 相关 类 。 

org. apache.avro.generic: Avro 数据 的 一 般 表 示 类 。 

org. apache.avro.io: Avro 输入 /输出 工具 类 。 

org. apache.avro.io.parsing: Avro 格式 的 LL (1) 语法 实现 。 
org. apache.avro.ipc: 进程 间 调 用 支持 类 。 

org. apache.avro.ipc.stats: 收集 和 显示 IPC 统 计数 据 的 工具 类 。 
org. apache.avro.ipc.trace: 追踪 RPC 递 归 调 用 的 相关 类 。 


org. apache.avro.mapred: 使 用 Avro 数据 运行 Hadoop MapReduce, 
其 Map 和 Reduce 功 能 用 Java 实 现 。 


org. apache.avro.mapred.tether: 使 用 Avro 数据 运行 Hadoop 
MapReduce， 其 Map 和 Reduce 功 能 在 子 进 程 运行 。 


org. apache.avro..reflect: 使 用 Java 映 射 为 存在 的 类 生成 格式 和 协 


We 


org. apache.avro.specific: 为 格式 和 协议 生成 特定 的 Java 类 。 


org. apache.avro.tool: Avro 命 令 行 工 具 类 。 


org. apache.avro.util: 


ati > 


ea AR 一 


关于 上 面 各 包 中 包含 的 类 的 具体 使 用 可 参见 Java API， 下 面 通过 
简单 的 例子 介绍 各 类 的 用 法 。 下 面 是 用 Java 实 现 学 生 信 ， 


取 : 


package cn.edu.ruc.cloudcomputing.book.chapter16; 
/*student.java*/ 
java.io.File; 
java.io.IOException; 


import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
public 
String 
String 
\"fields\": 
String 
String 
String 
String 
String 
String 


org. 
org. 
org. 


org 


org. 
org. 


org 


org. 


apache. 
apache. 
apache. 
.apache. 
apache. 
apache. 
.apache. 
apache. 


avro 


avro. 
avro. 


avro 


avro. 
avro. 


avro 
avro 


class student{ 
fileName="student.db"; 
prefix="{\"type\": \"record\", \"name\": \"Student\", 


suffix="]}"; 
fieldSID="{\"name\": \"SID\", \"type\": \"in 
fieldName="{\"name\": \"Name\", \"type\": \" 
fieldDept="{\"name\": \"Dept\", \"type\": \" 
fieldPhone="{\"name\": \"Phone\", \"type\": 

fieldAge="{\"name\": \"Age\", \"type\": \"in 


. Schema; 
file.DataFileReader; 
file.DataFilewriter; 
.generic.GenericData; 
generic.GenericDatumReader; 
generic.GenericDatumwriter; 
.generic.GenericData.Record; 
.util.Utf8; 


忌 的 存储 和 读 


t\"}"; 
string\"}"; 
string\"}"; 
\"string\"}"; 
t\"}"; 


Schema studentSchema=Schema. parse 


(prefixtfieldSID+", "+fieldName+", "+ 


fieldDept+", "+fieldPhone+", "+fieldAge+suffix) ; 
Schema extractSchema=Schema.parse 


(prefixt+fieldName+", "+fieldPhonet+suffix) ; 


25) 


24) 


23) 
25) 


23) 


int SID=0; 

public static void main (String[]args) throws IOException{ 
student st=new student () ; 

st.init () ; 

st.print () ; 

st.printExtraction () ; 

} 

JER 

* 初 始 化 添加 学 生 记录 

xk / 

public void init () throws IO0Exception{ 

DataFileWriter <Record>writer=new DataFileWriter<Record> ( 
new GenericDatumwriter <Record> (studentSchema) ) .create ( 
studentSchema, new File (fileName) ) ; 

try{ 

writer.append (createStudent ("Zhanghua", "Law", "15201161111", 
ji 
writer.append (createStudent ("Lili", "Economy", "15201162222", 
Js 
writer.append (createStudent ("Wangyu", "Information", 
"15201163333", 25) ) ; 
writer.append (createStudent ("Zhaoxin", "Art", "15201164444", 


ys 

writer.append (createStudent ("Sunqin", "Physics", "15201165555", 
Ms 

writer.append (createStudent ("Zhouping", "Math", "15201166666", 
E 

}finally{ 

writer.close () ; 

} 

} 

JER 

* 将 学 生 信息 添加 到 记录 中 

xx / 


private Record createStudent (String name, String dept, String 


phone, int age) { 


Record student=new GenericData.Record (studentSchema) ; 
student.put ("SID", (++SID) ) ; 

student.put ("Name", new Utf8 (name) ) ; 

student.put ("Dept", new Utf8 (dept) ) ; 

student.put ("Phone", new Utf8 (phone) ) ; 

student.put ("Age", age) ; 

System.out.println ("Successfully added"+name) ; 


return student; 
} 

JER 

* 输 出 学 生 信息 
xx / 

public void print () throws IOException{ 

GenericDatumReader <Record>dr=new GenericDatumReader <Record> 


dr.setExpected (studentSchema) ; 

DataFileReader <Record>reader=new DataFileReader <Record> (new 
File (fileName) , dr) ; 

System.out.printin ("\nprint all the records from database") ; 
try{ 

while (reader.hasNext () ) { 

Record student=reader.next () ; 

System.out.printin (student.get ("SID") .toString () +""+student. 
get ("Name") +""+student.get ("Dept") +""+student.get ("Phone") +" 
"+student.get ("Age") .toString () ) ; 

J 

}finally{ 

reader.close () ; 

J 

} 

JEX 

* 输 出 学 生 姓 名 和 电话 

KK 

public void printExtraction () throws IOException{ 
GenericDatumReader <Record>dr=new GenericDatumReader < Record > 


dr.setExpected (extractSchema) ; 

DataFileReader <Record>reader=new DataFileReader <Record> (new 

File (fileName) , dr) ; 

System.out.println ("\nExtract Name&Phone of the records from 
database") ; 

try{ 

while (reader.hasNext () ) { 

Record student=reader.next () ; 

System.out.printin (student.get ("Name") .toString () +""+student. 

get ("Phone") .toString () +"\t") 

} 

}finally{ 

reader.close () ; 


} 
} 
} 


编译 student.java 不 仅 需 要 从 网 站 
http: //www.apache.org/dyn/closer.cgi/avro/ 下 载 avro-1.6.3.jar 等 相关 类 ， 
需要 从 网 站 http: //wiki.fasterxml.com/JacksonDownload 下载 jackson- 
core-asl-1.9.7.jar 和 jackson-mapper-asl-1.9.7.jar 这 些 Java 中 JSON 生 成 的 解 
析 相 关 类 。 编 译 后 运行 文件 的 结果 如 图 16-6 所 示 ， 同 时 生成 student.db 
文件 ， 可 以 通过 查看 该 文件 中 的 内 容 来 了 解 对 象 容 侣 文件 的 格式 。 


16-6 ”编译 运行 student 文 件 


16.4 GenAvro (Avro IDL) 语言 


为 了 让 开发 者 在 声明 模式 时 使 用 一 种 与 诸如 Java、C++、Python 等 
普通 编程 语言 相似 的 方法 ，Avro 提 供 了 GenAvro 语 言 。GenAvro 是 声明 
Avro 模式 的 高 级 语言 《最 新 版 本 中 称 为 Avro IDL) ， 虽 然 它 目前 还 没 
有 完全 确定 下 来 ， 但 不 会 有 主要 的 变化 。 之 前 在 其 他 构架 如 Thrift 、 
Protocol、CORBA 中 使 用 过 接口 描述 语言 (IDL) 的 开发 者 可 能 会 对 


Avro IDL 语 言 有 亲切 感 。 


每 个 Avro IDL 文 件 定义 了 单一 的 Avro 协议 ， 并 产生 一 个 JSON 格 式 
的 Avro 协议 文件 ， 其 扩展 名 为 .avpr。 为 了 使 Avro IDL (新 版 本 中 
为 .avdl) 文件 转化 为 .avpr 文 件 ， 必 须 使 用 IDL 工 具 进 行 处 理 ， 例 如 : 
$java-jar avroj-tools.jar idl 


src/test/idl/input/namespaces.avdl/tmp/namespaces.avpr 
$head/tmp/namespaces.avpr 


"protocol": "TestNamespace", 
"namespace": "avro.test.protocol", 


这 个 IDL 工 具 也 可 以 处 理 从 stdin 输 入 的 数据 或 输出 到 stdout 的 数 
据 ， 更 多 的 信息 可 以 用 idl--help 命 令 查 询 。 一 个 Avro IDL 文 件 只 包含 一 
个 协议 定义 ， 较 小 的 协议 可 由 以 下 代码 定义 : 


protocol MyProtocol{ 


} 
这 相当 于 以 下 的 JSON 协 议定 义 : 


"protocol": "MyProtocol", 
"types": []. 
"messages": { 


} 


使 用 @namespace 广 解 后 ， 协 议 的 命名 空间 可 能 会 改变 ， 代 码 如 
F: 


@namespace ("mynamespace") 
protocol MyProtocol{ 
} 


在 Avro IDL 中 ， 可 以 通过 使 用 @namespace 为 所 注解 的 元 素 指定 属 
性 。Avro IDL 中 的 协议 包含 以 下 项 目 : 


指定 模式 的 定义 ， 包 括 记录 、 错 误 、 枚 举 和 国定 型 。 
RPC 消 息 的 定义 。 

外 部 协议 和 模式 文件 的 引用 。 

引入 文件 可 以 用 以 下 三 种 方式 之 一 : 

引入 IDL 文 件 使 用 语句 import idl“foo.avdl” ° 


引入 JSON 人 协议 文件 使 用 语句 import protocol“foo.avpr” ° 


引入 JSON 模 式 文件 使 用 语句 import schema“foo.avsc” ° 
下 面 介绍 各 种 类 型 的 定义 方法 。 


1) 定义 枚 举 。 在 Avro IDL 中 使 用 类 似 于 C 或 Java 的 语法 来 定义 枚 
举 ， 代 码 如 下 : 


enum Suit{ 
SPADES, DIAMONDS, CLUBS, HEARTS 


需要 注意 的 是 ， 不 像 JSON 格 式 ， 在 Avro IDL PEE ABB Ee TCS 
定义 的 。 


2) 定义 固定 长 度 的 字段 。 定 义 一 个 固定 长 度 的 字段 可 以 使 用 以 下 
语法 : 


fixed MD5 (16) ; 


该 例子 定义 了 一 个 包含 16 字 节 名 称 为 MD5 的 固定 长 度 类 型 。 


3) 定义 记录 和 错误 。 在 Avro IDL 中 定义 记录 的 语法 类 似 于 C 中 的 
结构 体 定义 ， 代 码 如 下 : 


record Employee{ 
string name; 
boolean active; 
long salary; 


以 上 例子 定义 了 一 个 带 有 三 个 字段 称 为 “Employee” 的 记录 ， 错 误 
类 型 的 定义 只 需要 将 record 改 为 error 就 可 以 了 ， 代 码 如 下 : 


error Kaboom{ 
string explanation; 
int result_code; 


记录 和 错误 中 的 字段 包括 类 型 和 名 称 ， 也 可 以 有 属性 注解 。Avro 
IDL 语 言 中 引用 的 类 型 必须 为 以 下 之 一 : 

原始 类 型 ; 

已 命名 的 模式 ， 该 模式 在 同一 协议 中 且 使 用 前 已 经 定义 ; 


复杂 类 型 (数据 、 映 射 或 者 联合 ) 


1) Avro IDL 文 持 的 原始 类 型 与 Avro 的 JSON 格 式 文 持 的 类 型 一 
样 ， 包 括 int、long、string、boolean、float、double、nul 和 bytes。 


2) 如 果 相 同 的 Avro IDL 文 件 中 已 经 定义 了 指定 的 模式 且 为 原始 类 
， 那 么 可 以 通过 名 称 直接 引用 ， 代 码 如 下 : 


pa 


record Card{ 
Suit suit; // 引 用 之 前 定义 的 枚 举 类 型 Card 
int number; 


3) 复杂 类 型 。 数 组 类 型 的 定义 方法 与 C++ 或 Java 中 的 定义 方式 类 
似 。 任 何 类 型 的 数组 写 为 array <t>。 例 如 ， 字 符 串 的 数组 写 为 array 
<string> ， 记 录 Foo 的 多 维 数 组 写 为 array< array < Foo > > ° WIRA 
和 数组 类 型 相似 ， 包 含 类 型 的 数组 写 为 map <t>>， 和 JSON 模 式 格式 
一 样 ， 所 有 的 映射 包含 string 类 型 的 键 。 联 合 类 型 写 为 union{typeA， 
typeB, typeC，.…...}， 例 如 ， 下 面 这 个 记录 包含 可 选 的 字符 串 字 上 段 : 
record RecordwithUnion{ 


union{null, string}optionalString; 


} 


需要 注意 的 是 ，Avro IDL 中 联合 的 限制 与 JSON 格 式 的 一 样 ， 即 记 
录 不 能 包含 相同 类 型 的 多 种 元 素 。 


使 用 Avro IDL 协 议定 义 RPC 消 息 的 语法 与 C 语 言 头 文件 或 Java 接 口 
的 方法 声明 相似 。 例 如 带 有 参数 foo 和 bar 且 返回 int 值 的 RPC 消 息 定义 


int add (int foo, int bar) ; 


定义 一 个 没有 返回 值 的 消息 可 以 使 用 别名 void， 相 当 于 Avro 的 null 
类 型 ， 如 下 所 示 : 


void logMessage (string message) ; 


如 果 在 相同 的 协议 之 前 已 经 定义 了 一 个 错误 类 型 ， 那 么 可 以 使 用 
下 面 语法 声明 消息 抛 出 这 个 错误 : 


void goKaboom () throws Kaboom; 


如 果 定 义 一 个 one-way 的 消息 ， 只 需 在 参数 后 面 使 用 关键 字 
oneway， 代 码 如 下 : 


void fireAndForget (string message) oneway; 
最 后 介绍 其 他 的 Avro IDL 语 言 特征 。 


(1) 注释 


Avro IDL 语 言 文 持 所 有 的 Java 类 型 注释 。 每 行 /后面 的 内 容 将 被 忽 
略 ， 用 人 * 和 */ 可 以 注释 多 行内 容 。 


(2) 区 别 标识 


当 语 言 需要 保留 字 来 作为 标识 时 ， 需 要 用 符号 “来 区 别 标识 。 例 
如 ， 定 义 一 个 珊 有 名 称 error 的 消息 : 


voiderror () ; 


这 个 语法 可 以 使 用 在 任何 有 标识 的 地 方 。 


(3) 排序 和 命名 空间 的 注释 


在 Avro IDL 中 Java 风 格 的 注释 可 以 用 来 给 类 型 增加 额外 的 属性 。 
例如 ， 指 定 记录 中 字段 的 排序 顺序 可 以 使 用 @order， 如 下 所 示 : 


record MyRecord{ 

@order ("ascending") myAscendingSortField; 
@order ("descending") myDescendingField; 
@order ("ignore") myIgnoredField; 


当然 注释 也 可 以 放 在 字段 类 型 的 前 面 ， 如 : 


record MyRecord{ 
@java-class (“java.util.ArrayList”) array string myStrings; 


} 


类 似 的 ， 当 定义 一 个 指定 模式 时 ， 使 用 @namespace 可 以 修改 命名 
空间 ， 如 : 


@namespace ("org.apache.avro.firstNamespace") 
protocol MyProto{ 

@namespace ("org.apache.avro.someOtherNamespace") 
record Foo{} 

record Bar{} 


} 


这 里 在 firstNamespace 命 名 空间 中 定义 了 一 个 协议 ， 记 录 Foo 定 义 


在 someOtherNamespace 中 ，Bar 定 义 在 firstNamespace 中 ， 且 从 容器 中 


继承 了 默认 值 。 
对 于 类 型 和 字段 的 别名 可 以 用 注释 @aliases 来 指定 ， 如 下 所 示 : 


@aliases (["org.old.OldRecord", "org.ancient.AncientRecord"]) 
record MyRecord{ 
string@aliases (["oldField", "ancientField"]) myNewField; 


} 


下 面 是 Avro IDL 文 件 的 完整 例子 : 


/* * 

*An example protocol in Avro IDL 
*/ 

@namespace ("org.apache.avro.test") 
protocol Simple{ 

@aliases (["org.foo.Kindof"]) 

enum Kind{ 

FOO, 

BAR, //the bar enum value 

BAZ 


fixed MD5 (16) ; 

record TestRecord{ 

@order ("ignore") 

string name; 

@order ("descending") 

Kind kind; 

MD5 hash; 

union{MD5, null}@aliases (["hash"]) nullableHash; 
array<long>arrayOfLongs; 

} 

error TestError{ 

string message; 

} 

string hello (string greeting) ; 
TestRecord echo (TestRecordrecord) ; 
int add (int argi, int arg2) ; 

bytes echoBytes (bytes data) ; 
voiderror () throws TestError; 

void ping () oneway; 


16.5 Avro SASL 概 述 


SASL (Simple Authentication and Security Layer， 简 单 验证 安全 
层 ) 是 网 络 协议 中 提供 验证 和 安全 的 框架 ， 它 将 验证 机 制 从 用 户 程 序 
协议 中 分 离 出 来 ， 使 得 采用 SASL 的 程序 可 以 使 用 任何 SASL 所 文 持 的 
验证 机 制 ， 同 样 也 支持 代理 验证 。SASL 提 供 的 数据 安全 层 能 够 提供 数 
据 完整 性 和 数据 加 密 服 务 ， 支 持 SASL 的 用 户 协 议 ， 也 支持 SASL 服 务 
所 需 的 安全 传输 层 协议 ， 其 中 安全 传输 层 协 议 是 为 因特网 上 通信 提供 
安全 性 的 加 密 协议 。 开 发 者 可 通过 SASL 对 通用 API 进 行 编 码 ， 此 方法 
避免 了 对 特定 机 制 的 依赖 。 采 用 SASL 的 协议 需要 定义 SASL profile, 
即 如何 使 用 SASL 进 行 验证 协商 。 下 面 对 Avro RPC 采 用 的 SASL 进 行 介 
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SASL 协 商 过 程 可 以 看 成 是 客户 端 和 服务 器 使 用 特定 的 SASL 机 
制 、 在 连接 的 基础 上 进行 一 系列 消 恩 的 交互 。 客 户 剖 通过 发 送 市 有 初 
人 消息 (可 能 为 空 ) 的 机 制 名 称 (这 里 是 SASL) 来 协商 过 程 。 协 商 过 
程 一 直 伴 随 着 消息 的 交换 直到 某 一 方 表明 协商 成 功 或 失败 。 消 居 的 内 
容 由 具体 的 机 制 决定 ， 如 果 协 商 成 功 束 可 以 通过 连接 进行 会 话 ， 否 则 
将 被 抛弃 。 一 些 机 制 在 协商 之 后 会 继续 处 理会 话 的 数据 (如 对 数据 进 
行 加 密 ) ， 而 一 些 机 制 会 指定 会 话 数据 传输 不 需 修改 。 


Avro SASL) Fi (AAS BES, RIZE: 


0: START (开始 ， 使 用 于 客户 端 初始 消息 中 : 


1: CONTINUE (继续 ) ， 使 用 于 协商 进行 中 : 


2: FAIL (KK) ， 协 商 失败 ; 


3: COMPLETE (完成 ) ， 成 功 完成 协商 。 


开始 消 妃 的 格式 是 : 


1914 字 节 的 机 制 名 称 的 长 度 | 机 制 名 称 14 字 节 的 有 效 负 载 的 长 度 | 有 效 负 载 数据 


1114 字 节 的 有 效 负 载 的 长 度 | 有 效 负 载 数据 


失败 消 妃 的 格式 是 : 


1214 字 节 的 消息 长 度 |UTF- 8 的 消息 | 


TEBE AA re: 


1314 字 节 的 有 效 负载 的 长 度 | 有 效 负载 数据 


协商 以 客户 端 发 送 START 命 令 开 始 ，STARIT 命 令 中 包含 客户 靖 选 
定 的 机 制 名 称 和 指定 机 制 的 有 效 负载 数据 。 然 后 ， 服 务 部 和 客户 端 交 
fR—HECONTINUEV A, & MARE SHE ER BNE 


ASM RAE o — AAP me ARS at ZOSPAILIB ES, DAMRAK 

败 ， 失 败 消息 中 包含 UTF-8 编 码 的 文本 。 只 要 接收 到 或 发 送 了 FAIL 消 
息 ， 或 者 在 协商 过 程 中 发 生 了 任何 错误 ， 基 于 此 次 连接 的 通信 就 必须 
结束 。 如 果 客 户 端 或 服务 器 发 送 COMPLETE 消 息 ， 那 么 协商 将 成 功 完 
成 ， 会 话 数 据 可 以 通过 此 次 连接 进行 传输 直到 一 方 关闭 。 


如 果 SASL QOP (Quality of Protection， 品 质保 证 ) 没有 进行 协 
商 ， 则 基于 此 次 连接 的 读 / 写 无 需 修 改 ， 特 别 是 传输 的 消息 使 用 了 Avro 
框架 并 采用 了 下 面 的 形式 : 


14 字 节 的 框架 长 度 | 框 架 数据 |…-| 4 个 零 字 节 | 


如 条 SASL QOP 协 商 且 成 功 ， 则 此 次 连接 后 的 消息 传输 使 用 
QOP。 写 数据 时 使 用 安全 机 制 对 非 空 的 框架 进行 封 锋 ， 读 取 数 据 时 需 
要 解 开 。 完 整 的 框架 必须 传送 到 安全 机 制 进行 解 封 狼 ， 之 后 传送 到 应 
用 程序 中 。 如 有 果 在 封装 、 解 封装 或 者 框 以 处 理 时 发 生 错误 ， 那 么 此 次 
连接 的 通信 必须 结束 。 


SASL 的 匿名 机 制 很 容易 实现 ， 特 别 之 处 在 于 ， 一 个 初始 的 匿名 请 
求 可 以 用 以 下 静态 序列 作为 前 级 : 


| © | 009 | ANONYMOUS | 0000 | 


WOR ARS an EAD 4 WL), WE es PMC RK, BH 
开始 消息 的 机 制 名 称 是 否 为 ANONYMOUS”， 然 后 对 带 有 


COMPLETE 消 息 的 初始 响应 前 加 上 前 级: 


1319000| 


如 果 匿 名 服务 器 接收 到 市 有 其 他 机 制 名 称 的 请 求 ， 那 么 它 将 发 送 
FAIL 消 息 : 

|2| 0000 | 

注意 ， 匿 名 机 制 不 会 在 客户 端 和 服务 器 之 间 增 加 多 余 的 往返 ， 


START 消 息 附 加 在 初始 请 求 中 ， 而 COMPLETE 和 FAIL 消 息 则 附加 在 初 
台 啊 应 中 。 


16.6 “本草 小 结 


本 章 内 容 主 要 包括 : 16.17 首 先 将 说 明 如 何 声 明 Avro 模 式 ， 以 及 
如 何 对 数据 进行 序列 化 ， 然 后 介绍 对 象 容器 文件 的 具体 格式 和 RPC 中 
Avro 的 使 用 方法 ， 包 括 协议 的 声明 、 协 议 传输 的 格式 等 ， 最 后 介绍 如 
何 解 析 获 取 的 数据 ， 重 点 说 明 如 何 处 理 写 入 模式 和 读 取 模式 的 不 同 。 
16.2 节 介绍 了 在 C 和 C++ 中 如 何 使 用 Avro， 主 要 叙述 函数 的 使 用 ， 其 中 
引用 关于 学 生 模 式 的 具体 例子 来 详细 介绍 。16.3 节 首先 介绍 Java 中 使 用 
Avro 所 需要 的 一 些 包 ， 后 面 给 出 了 上 市 中 学 生 模 式 例子 的 Java 实 现 程 
序 。16.4 节 主要 介绍 了 GenAvro 语 言 ， 说 明 如 何 用 类 似 高 级 语言 的 方法 
来 声明 一 个 Avro 模式 。16.5 世 简单 介绍 了 Avro 的 简单 验证 安全 层 ， 有 具 
体 说 明了 通信 双方 如 何 进 行 协商 。 


Avro 作 为 一 个 数据 序列 化 系统 ， 为 数据 密集 型 动态 应 用 程序 提供 
了 数据 存储 和 交换 的 平台 ， 它 的 最 大 特点 束 是 模式 和 数据 在 一 起 ， 也 
束 是 在 反 序 列 化 时 写 入 的 模式 和 读 出 的 模式 都 是 已 知 的 ， 这 为 Avro 市 
来 了 很 多 好 处 ， 如 生成 的 数据 文件 很 小 等 。 


今后 ，Avro 可 能 会 奉 换 Hadoop 现 有 的 RPC, Avro 的 很 多 特性 是 为 
Hadoop 及 相关 项 目 准 备 的 : 容 需 文件 中 的 同步 套 可 以 使 MapReduce 快 
速 地 分 离 文件 ， 不 需要 生成 代码 ， 有 利于 Avro 使 用 于 Hive 和 Pig; 对 于 
大 规模 存储 较 小 的 数据 文件 有 利于 减少 数据 量 等 。Avro 数 据 结 构 的 特 


性 和 多 语言 支持 的 优势 还 会 帮助 Hadoop 在 跨 版 本 、 多 语言 等 方面 提高 


性 能 。 


第 17 章 ”Chukwa 详 解 


Chukwa 人 简介 

Chukwa 架 构 

Chukwa 的 可 靠 性 
Chukwa 集 群 搭建 
Chukwa 数 据 流 的 处 理 
Chukwa 与 其 他 监控 系统 比较 


本 章 小 结 


17.1 ”Chukwa 傈 介 
Hadoop 的 MapReduce 最 初 的 主要 用 于 日 志 处 理 。 但 是 使 用 
因为 集群 中 机 器 的 日 志 在 


志 是 一 件 很 烦琐 的 事情 ， 
生成 大 量 小 文件 ， 而 MapReduce 其 实 只 有 在 处 理 少量 


MapReduce 处 理 日 


不 断 地 增加 ， 会 
的 大 文件 数据 时 才 会 产生 最 好 的 效用 
这 一 缺陷 。 同 时 它 也 是 


Chukwa 作 为 Hadoop 的 子 项 目 弥补 了 这 一 缺陷 。 
能 通过 扩展 处 理 大 量 的 客户 端 请 求 ， 
FA ETE 


可 靠 性 的 应 用 ， 
户 端的 数据 流 。Chukwa 也 非常 适合 商业 应 用 ， 特 别 是 


且 它 已 经 成 功 地 使 用 在 多 个 场景 
Chukwa 的 开发 主要 面向 四 类 群体 ，Hadoop 使 用 者 、 集 群 运 营 人 


员 、 集 群 的 管理 者 、Hadoop 开 发 者 
般 想 了 解 作 业 运 行 的 状态 ， 以 及 还 有 多 少 


Hadoop 使 用 者 : 他 们 一 
资源 可 以 用 于 新 的 作业 ， 因 此 他 们 需要 得 到 的 是 作业 日 志和 作业 输 
资源 的 消耗 


ith 
他 们 需要 了 解 人 硬件 故障 、 异 常 状 态 


集群 运营 人 员 : 
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集群 的 管理 者 : 他 们 需要 了 解 在 什么 样 的 成 本 下 能 够 提供 什么 样 
的 服务 ， 这 殉 意 味 厦 他 们 需要 一 个 工具 去 分 析 集 群 系统 或 单个 用 记过 
去 的 使 用 状况 ， 并 利用 分 析出 的 信息 预测 将 来 的 需求 。 他 们 也 要 了 解 
系统 的 一 些 特 征 值 ， 如 一 个 任务 的 平均 等 竺 时 间 。Hadoop 开 发 者 : 
Hadoop 的 开发 人 员 通 党 需要 了 解 系统 的 运行 情况 ，Hadoop 的 运行 瓶 
有 贷 、 失 效 模式 等 。 


Chukwa 作 为 Hadoop 软 件 家 族 中 的 一 员 ， 依 赖 于 其 他 Hadoop 的 子 
项 目 使 用 ， 比 如 ， 以 HDFS 作 为 存储 层 ， 以 MapReduce 作 为 计算 模型 ， 
以 Pig 作 为 高 层 的 数据 处 理 语言 。Chukwa 系 统 的 最 大 开销 被 限制 在 整 
个 集群 系统 可 用 资源 的 5% 以 内 。 


Chukwa 是 一 个 分 布 式 系统 ， 它 采用 的 是 流水 式 数 据 处 理 方式 和 模 
块 化 结构 的 收集 系统 ， 在 每 一 个 模块 中 有 一 个 简单 规范 的 接口 ， 这 有 
利于 将 来 更 新 ， 而 不 需要 打破 现行 的 编码 结构 。 流 水 式 模式 就 是 利用 
其 分 布 在 各 个 节点 客户 端的 采集 器 收集 各 个 节点 被 监控 的 信息 ， 然 后 
以 块 的 形式 通过 HTTP Post 汇 集 到 收集 器 ， 由 它 处 理 后 转 储 到 HDFS 
中 。 之 后 这 些 数据 由 Archiving 处 理 (去 除 重复 数据 和 合并 数据 ) 提 
纯 ， 再 由 分 离 解析 器 利用 MapReduce 将 这 些 数据 转换 成 结构 化 记录 ， 
并 存储 到 数据 库 中 ，HICC (Hadoop Infrastructure Care Center) 通过 调 
用 数据 库 里 数据 ， 回 用 户 展示 可 视 化 后 的 系统 状态 。 


图 17-1 展 示 了 Chukwa 流 水 式 数 据 处 理 结构 。 


下 面 的 章 市 将 从 Chukwa 架 构 出 发 ， 介 绍 系 统 中 的 各 个 模块 ， 并 且 
讲解 Chukwa 如 何 实现 系统 的 可 徘 性 。 在 对 Chukwa 整 个 系统 框架 及 原 
理 有 所 了 解 后 ， 大 家 可 以 根据 “Chukwa 集 群 搭建 ”一 节 的 介绍 ， 拱 建 一 
个 目 己 的 Chukwa 系 统 来 监控 Hadoop 集 群 ， 这 样 就 可 以 与 其 他 监控 系统 
有 一 个 比较 。 和 希望 大 家 可 以 结合 目 己 实际 使 用 感受 ， 进 一 步 了 解 


Chukwa 监 控 系 统 的 特点 。 
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17-1 Chukwa 流 水 式 数 据 处 理 结构 


17.2. Chukwa 架 构 


Chukwa 有 三 个 主要 组 成 部 分 : 客户 端 (Agent) ， 它 运行 在 每 一 
个 被 监控 的 机 器 上 ， 并 且 传 送 源 数据 到 收集 器 (Collector) 中 ; 收集 
器 (Collector) 和 分 离 解 析 器 (Demux) ， 收 集 器 接受 从 Agent 传 来 的 
数据 ， 并 且 不 断 地 将 其 写 到 HDFS 中 ， 而 分 离 解析 器 则 进行 数据 抽取 
并 将 其 解析 变换 成 有 用 的 记录 ; HICC (Hadoop Infrastructure Care 
Center) ， 其 是 一 个 门户 样式 的 网 页 界面 ， 用 于 数据 的 可 视 化 。 


17-2 为 Chuwa 的 系统 架构 图 。 
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17-2 ”Chuwa 系 统 架 构图 
17.2.1 客户 六 及 其 数据 模型 


在 Chukwa 中 ，Agent 的 主要 目的 是 : 使 内 部 进程 通信 协议 能 够 兼 
容 处 理 本 地 的 日 志文 件 。 


随 着 分 布 式 计算 处 理 的 开始 或 结束 ， 分 布 存放 的 文件 和 套 接 字 将 
会 不 断 增 加 或 减少 ， 这 种 变化 是 需要 被 监控 的 ， 因 此 要 在 每 一 台 机 器 
上 配置 Agent。 现 在 绝 大 多 数 的 监控 系统 都 要 求 通 过 特殊 的 协议 传送 数 
据 ，Chukwa 也 不 例外 ， 所 以 在 Chukwa 中 ，Agent 不 直接 负责 接收 数 
据 ， 取 而 代 之 的 是 一 个 可 执行 环境 : 提供 可 配置 的 承载 数据 模块 
(Adaptor) 。 这 些 Adaptor 在 文件 系统 或 被 监控 的 应 用 中 的 功能 是 读 
取 数 据 ，Adaptor 的 输出 是 一 个 逻辑 上 的 比特 流 ， 单 个 数据 流 对 应 单个 
文件 ， 或 者 在 相应 套 接 字 上 接收 对 应 的 数据 包 或 一 系列 重复 调用 的 
UNIX 程 序 。 数 据 流 被 存储 成 序列 块 ， 每 一 个 数据 块 由 一 些 流 级 别 的 元 
数据 (Stream-level metadata) 加 上 一 个 数组 比特 构成 。 启 动 Adaptor 可 
以 通过 UNIX 命 令 来 完成 。Adaptor 能 够 扫描 目录 ， 追 踪 新 创建 的 文 
件 。 这 样 Adaptor 便 能 够 接收 UDP 消息 ， 包 括 系统 日 志 (Syslog) ， 特 
别 是 可 以 不 断 地 追踪 日 志 ， 将 日 志 更 新 到 文件 中 。 并 且 Adaptor 是 可 以 
互相 内 套 的 ， 例 如 ， 一 个 Adaptor 可 以 在 内 存 中 缓存 来 自 另 一 个 
Adaptor 的 输出 。 在 单个 线程 内 运行 所 有 的 Adaptor， 可 以 让 管理 员 在 
资源 受 限 的 商业 环境 中 实施 一 些 必 要 的 资源 限制 : 内 存 的 使 用 可 以 通 
过 JVM 扒 的 使 用 进行 控制 ， CPU 的 使 用 可 以 通过 进程 优先 级 (Nice) 
控制 ， 珊 宽 的 限制 可 以 通过 Agent 进 程 协调 ， 即 设置 它 在 网 络 中 的 最 大 
传输 速率 ， 只 要 超过 最 大 可 利用 的 带 视 ， 就 在 Agent 进 程 中 设置 固定 大 
小 的 队列 ， 或 者 当 Collector 啊 应 缓慢 时 ，Collector 会 目 动 调 方 进程 中 
Adaptor 的 工作 。 


Agent 的 主要 工作 是 负责 开始 和 停止 Adaptors， 并 且 通 过 网 络 传输 
数据 。Agent 支 持 行 定位 控制 协议 ， 方 便 程 序 对 Agent 控 制 。 该 协议 包 
含 的 命令 有 : 启动 和 停止 Adaptor， 以 及 查询 它们 的 状态 ， 也 允许 外 部 
程序 在 开始 读 日 志 时 重新 配置 Chukwa。Agent 进 程 也 将 会 定期 查询 
Adaptor 状 态 ， 并 且 存 储 Adaptor 状 态 在 检查 点 (Checkpoint) 文件 中 ， 
每 一 个 Adaptor 负 责 记录 足够 的 状态 以 便 能 够 在 需要 的 时 候 完 整地 恢复 
原先 的 状态 ，Checkpoint 只 是 包含 状态 ， 因 此 Checkpoint 文 件 是 很 小 
的 ， 一 般 每 一 个 Adaptor 的 Checkpoint 文 件 只 有 几 百 比特 。 


Agent 和 Adaptor 会 目 动 设置 一 些 元 数据 ， 但 是 其 中 有 两 个 元 数据 
是 需要 用 户 目 己 定义 的 : 集群 名 字 和 数据 类 型 。 集 群 名 字 被 设置 在 
etc/chukwa/chukwa-agent-conf.xml 中 ， 是 在 每 一 个 进程 当中 的 全 局 变 
量 。 数 据 类 型 描述 了 由 Adaptor 实 例 收集 的 数据 类 型 ， 在 局 动 实例 时 ， 
它 必 须 已 经 指定 。 下 面 的 表 17-1 列 举 了 块 的 元 数据 字段 。 
表 17-1 块 的 元 数据 字段 
a Sat 


re Pi (Sequence ID) ie CARS ER YY i FE 


名 字 (name) 数据 源 的 名 字 


Adaptors 需 要 以 序列 号 (Sequence ID) 作为 参数 ， 以 便 在 崩溃 后 
能 重新 恢复 到 之 前 的 状态 。 在 启动 Adaptor 时 ， 通 常会 把 序列 号 置 为 


0， 但 是 有 时 候 也 会 为 了 其 他 的 目的 将 序列 号 置 为 其 他 值 ， 例 如 ， 只 想 
追踪 文件 的 下 半 部 分 。 


17.2.2 ”收集 器 


现在 介绍 Chukwa 架 构 中 Collector 的 模型 。 如 果 每 一 个 Agent 都 直接 
向 HDFS 中 写 入 数据 ， 那 么 将 会 产生 许多 小 文件 ， 所 以 Chukwa 使 用 
Collector 技 术 ， 由 单个 Collector 线 程 处 理 多 个 来 自 于 Agent 的 数据 ， 
一 个 Collector 将 它 接收 的 数据 写 到 单个 输出 文件 中 ， 这 个 文件 放 在 数 
fats (Data Sink) 目录 下 ， 这 就 减少 了 单个 机 器 或 单位 时 间 内 Adaptor 
产生 的 文件 数 ， 同 时 也 减少 了 整个 集群 产生 的 文件 数 。 从 某 种 意义 上 
来 讲 ，Collector 的 存在 减轻 了 大 量 的 低速 率 数据 源 和 优化 过 的 少量 高 
速率 文件 系统 间 写 入 的 匹配 问题 ，Collector 会 定期 关闭 它们 的 输出 文 
件 ， 同 时 重新 命名 该 文件 来 标记 其 可 以 被 进一步 处 理 ， 并 且 开 始 写 另 
一 个 新 的 文件 。 这 个 过 程 被 称 为 文件 轮转 。 一 个 MapReduce 作 业 定 期 
压缩 收集 到 的 日 志文 件 并 且 将 它们 合并 成 一 个 文件 。 


Chukwa 不 同 于 其 他 监控 系统 的 地 方 就 是 它 利 用 了 Collector 技 术 。 
在 Collector 中 没有 实施 任何 可 靠 性 策略 ，Chukwa 的 可 靠 性 是 依赖 于 系 
统 端 到 端的 协议 。 在 Chukwa 的 可 靠 路 径 中 ，Collector 以 标准 的 Hadoop 
序列 文件 (sequencefile) 格式 写 数据 。 这 种 格式 使 MapReduce 的 多 路 
处 理 更 加 容易 。 


Chukwa Agent 在 分 配 Collector 时 也 没有 实施 动态 负载 均衡 方法 ， 
而 是 由 Agent 随 机 选择 Collector 轮 询 ， 直 到 有 一 个 可 以 工作 为 止 ， 而 后 
Agent 将 独占 该 Collector， 直 到 Agent 接 受到 报错 信息 ， 这 时 才 会 转移 
到 一 个 新 的 Collector 上， 如 图 17-3 所 示 。 


该 方法 的 好 处 是 在 文件 系统 写 数据 之 前 ， 限 定 了 由 于 Collector 故 
障 受 影响 的 Agent 的 数量 ， 这 也 避免 了 故障 扩散 ， 否 则 会 发 生 每 一 个 
Agent 痢 被 迫 对 任意 一 个 Collector 所 发 生 的 故障 做 出 响应 的 情况 。 这 种 
情况 会 造成 Collector 间 的 负载 不 均衡 。 但 在 实际 的 应 用 中 该 问题 造成 
的 影响 不 大 ，Collector 不 太 会 饱和 。 


为 了 处 理 过 载 的 情况 ，Agent 重 新 询问 Collector 是 有 特定 方法 的 。 
如 果 Agent 回 一 个 Collector 中 写 入 数据 失败 ， 那 么 该 Collector 和 被 标记 
RY” (bad) ， 并 且 该 Agent 将 在 再 次 写 入 之 前 等 竺 一 个 系统 设置 
的 时 间 。 因 此 ， 如 果 所 有 Collector 过 载 ， 一 个 Agent 将 会 询问 每 一 个 
Collector， 其 结果 都 将 会 是 访问 失败 ， 这 样 Agent 会 等 待 几 分 钟 后 再 次 


访问 Collector ° 


在 Collector 庙 包 选 数据 有 许多 优点 ， 如 Collector 是 IO 约束 型 ， 不 是 
CPU 约束 型 ， 这 意味 着 CPU 资源 可 以 根据 作业 的 状态 进行 分 配 ， 进 一 
步 襄 ， 世 就 是 Collectors 是 无 状态 的 ， 只 需 在 机 妖 间 简单 增加 更 多 的 


CollectorE FJ ° 


ein 


(Source, 


Collecter ( 收集 器 ; 


Collector ( 收集 器; 


HTTP Post 


e 


HERS -r-re 


17-3 ”Agent 的 可 靠 性 实施 


17.2.3 JIR A REIT as 


Chukwa 为 我 们 定制 了 一 系列 MapReduce 作 业 ， 这 些 作 业 大 体 上 可 
以 分 为 两 类 : 归档 (Archiving) 和 分 离 解 析 (Demux) 。 


归档 堪 从 HDFS 的 块 (Chunk) 中 抽取 数据 作为 输入 ， 然 后 将 数据 
进行 排序 、 分 组 。 在 这 一 过 程 中 归档 妖 并 不 对 数据 内 容 进行 分 析 或 修 
改 ， 它 会 按照 不 同 的 方式 将 数据 进行 分 组 。 归 档 右 能 去 除 重复 数据 ， 
并 探查 到 数据 丢失 ， 重 复 地 调用 该 作业 可 让 数据 随时 间 不 断 压缩 到 一 
个 大 文件 中 。Chukwa 提 供 了 一 些 工具 搜索 归档 器 产生 的 文件 。 


分 离 解 析 右 的 功能 是 抽取 记 杂 并 解析 ， 使 之 变换 成 可 以 利用 的 记 
孙 ， 以 减少 文件 数目 和 降低 分 析 难 度 。Demux 的 实现 是 通过 在 数据 类 
型 和 配置 文件 中 指定 的 数据 来 处 理 类 并 执行 相应 的 数据 分 析 工 作 的 。 
一 般 是 把 非 结 构 化 的 数据 结构 化 ， 抽 取 其 中 的 数据 属性 。 由 于 Demux 
的 本 质 是 一 个 MapReduce 作 业 ， 所 以 可 以 根据 需求 制定 Demux 作 业 来 
进行 各 种 复杂 的 逻辑 分 析 。Chukwa 提 供 的 Demux interface 可 以 通过 
Java 语 言 很 方便 地 扩展 。 在 之 前 没有 Demux 的 版 本 中 ，Chukwa 引 入 了 
Archiving 的 MapReduce 作 业 ， 按 照 集群 、 日 期 和 数据 类 型 来 分 类 数 
据 。 这 种 存储 模型 匹配 了 使 用 数据 的 传统 作业 模式 ， 简 化 了 写作 业 通 


过 基于 数据 的 时 间 、 来 源 和 类 型 提纯 数据 的 过 程 。 例 如 ， 存 储 用 户 日 
志 用 14 天 标记 ， 而 存储 系统 日 志 则 用 年 标记 。 


Chukwa 支 持 用 正则 表达 式 来 查询 文件 的 元 数据 和 数据 内 容 ， 对 于 
繁重 和 复杂 的 任务 ， 用 户 可 以 运行 特定 的 MapReduce 作 业 去 收集 数 
据 。 此 外 ，Chukwa 完 整地 整合 了 Pig ( 见 第 14 章 “Pig 详 解 ”) ， 以 提供 
更 加 强大 的 搜索 功能 。 


17.2.4 HICC 


HICC 作 为 Chukwa 的 子 项 目 ， 其 重要 功能 是 可 祝 化 系统 性 能 指 
标 。HICC 能 够 显示 传统 系统 的 度量 数据 ， 例 如 系统 资源 空 厅 比率 、 
CPU 的 人 负载、 磁盘 写 数据 的 速度 ， 以 及 应 用 层 的 统计 数据 (如 本 地 机 
大 内 map 任 务 数 、Hadoop 块 迁移 数量 等 ) 等 。HICC 也 能 够 显示 使 用 
一 个 市 点 日 志 信 息 的 SALSA 作 业 执 行 模型 状态 机 和 Mochi 可 视 化 框架 
[1，2]。 利 用 Chukwa 可 视 化 功能 可 以 清楚 看 到 集群 中 的 作业 是 否 在 被 
均匀 传播 。HDFS 对 于 读 请 求 有 很 长 的 延迟 ， 因 此 在 执行 交互 查询 工 
作 时 ， 反 应 会 比较 慢 ， 而 HICC 抽 取 数 据 是 使 用 批 插入 的 方式 辐 SQL 数 
据 库 中 插入 通过 MapReduce 处 理 收集 到 的 数据 。MapReduce 作 业 寺 认 
每 5 分 钟 执 行 一 次 ， 因 此 显示 数据 至 少 比 实 时 慢 5 分 钟 。HICC 也 可 以 文 
持 集 群 性 能 的 调试 和 Hadoop 作 业 执 行 的 可 视 化 等 应 用 。 在 这 些 应 用 
中 ， 延 迟 并 不 是 问题 。 目 前 ，HICC 不 需要 Chukwa 的 可 靠 性 传输 ， 但 
征 它 依赖 于 Chukwa 收 集 数据 和 MapReduce 处 理 数据 。 


17.3. “Chukwa 的 可 靠 性 


容错 能 力 是 Chukwa 设 计 的 一 个 重要 指标 。 即 使 在 系统 崩溃 、 网 络 
连接 中 断 情况 下 ， 也 不 能 丢失 数据 。Chukwa 的 方案 与 其 他 分 布 式 系统 
在 本 质 上 的 不 同 是 其 分 布 式 存储 日 志 的 方式 。 该 方式 会 将 数据 源 的 相 
应 状态 写 入 数据 节点 ， 由 Agent 管 理 节 点 崩溃 的 情况 ，Agent 通 常会 类 
自己 的 状态 设置 检查 点 (Checkpoint) 。 该 Checkpoint 描 述 了 每 一 个 当 
前 被 监控 的 数据 流 ， 并 且 清 查 有 多 少 来 自流 中 的 数据 已 经 被 提交 到 
DataSink 上 “。 在 节点 前 误 后 ，Chukwa 使 用 后 台 管 理工 具 去 重启 Agent 。 


在 Agent 进 程 恢复 后 ， 每 一 个 Adaptor 将 从 最 近 的 Checkpoint 状 态 重 
启 。 这 意味 着 Agent 将 重新 发 送 没有 提交 的 数据 ,或 者 重新 发 送 在 最 后 
的 Checkpoint 记 录 之 后 所 提交 的 数据 。 在 恢复 过 程 中 所 产生 的 重复 块 
将 通过 Archiving 作 业 滤 除 掉 。 跟 踪 文 件 状态 的 Adaptor 通 过 文件 的 定位 
固定 偏 移 量 来 恢复 文件 内 容 ， 并 且 Adaptor 也 能 够 监控 临时 数据 源 ， 如 
网 络 的 套 接 字 。 在 这 种 情况 下 ，Adaptor 通 过 重新 发 送 数据 就 能 很 容易 
恢复 丢失 的 数据 ， 因 此 丢失 数据 将 不 是 一 个 大 的 麻 硕 ， 例 如 丢失 一 分 
钟 的 系统 度量 信息 。 因 为 在 默认 提供 封装 好 的 库 的 Adaptor 中 已 经 缓存 
了 来 自 不 稳定 数据 源 的 数据 ， 所 以 就 可 以 建立 不 带 容 错 机 制 的 
Collector。Agent 将 检查 Collector 对 于 文件 系统 的 状态 ， 这 个 状态 会 起 


到 侦 测 系统 故障 并 从 故障 中 恢复 的 作用 。 恢 复 则 完全 由 Agent 处 理 ， 并 


不 需要 从 失效 的 Collector 中 获取 信息 。 然 后 Agent 发 送 数 据 到 Collector, 
Collector 将 写 数 据 存储 到 HDFS 文 件 中 ， 并 且 也 定位 了 数据 在 文件 中 的 
位 置 。 这 个 位 置 很 容易 束 能 确定 ， 因 为 每 一 个 文件 仅 十 通过 一 个 
Collector 写 的 ， 唯 一 需要 满足 的 要 求 承 是 排列 数据 和 增加 其 长 度 。 


Collector 将 不 监控 已 写 入 的 文件 ， 也 不 存储 每 一 个 Agent 状 态 ， 轮 
询 Collector 而 不 是 直接 对 文件 系统 访问 是 为 了 减少 文件 系统 主 节点 的 
负载 ， 把 Agent 从 存储 系统 的 烦琐 中 解脱 出 来 。 在 出 现 故 障 时 ，Agent 
将 恢复 上 一 个 Checkpoint， 并 且 选 择 一 个 新 的 Collector ° 


17.4 ”Chukwa 集 群 搭建 


17.4.1 基本 配置 要 求 


Chukwa 可 以 工作 在 任何 POSIX 平 台 上 ， 但 是 GNU/Linux 是 唯一 的 
已 经 被 广泛 测试 的 商用 平台 ， 不 过 ， 几 个 Chukwa 研 发 团队 也 在 Mac 
OS X 上 成 功 使 用 了 Chuwka。 目 前 将 GNU/Linux 作 为 安装 Chukwa 的 平 
台 是 比较 理想 的 选择 。 下 面 是 安装 Chukwa 的 先决 条 件 : 


必须 安装 Java 1.6; 
必须 安装 Hadoop 0.20.205.0 或 以 上 版 本 ; 
安装 HBase 0.90.4 或 以 上 版 本 ; 


Chukwa 集 群 管理 脚本 需要 安装 SSH。SSH 功 能 用 户 Chkuwa 执 行 集 
群 管理 脚本 ， 但 是 对 于 Chukuwa 的 运行 并 不 是 必需 的 。 如 果 不 使 用 
SSH 用 户 可 以 采用 其 他 方法 来 维护 Chukwa 集 群 。 


17.4.2 ”Chukwa 的 安装 


Chukwa 项 目的 运行 至 少 需要 如 下 三 部 分 的 文 持 : 
Hadoop 和 集群 和 HBase 集 群 ，Chukwa 依 赖 其 来 存储 并 人 处理 数据 。 
一 个 Collector 进 程 ， 将 收集 到 的 数据 写 入 HBase 中 。 


一 个 或 多 个 Agent 进 程 ， 它 发 送 监控 数据 到 Collector， 我 们 将 运行 
的 Agent 进 程 的 下 点 视 为 被 监控 点 。 

另外 ， 可 以 使 用 定制 的 脚本 文件 来 监控 集群 的 健康 状态 ， 并 使 用 
HICC 来 图 形 化 显示 集群 的 状态 。 


下 面 我 们 以 三 台 机 需 为 例 介 绍 如 何 配置 Chukwa 来 监控 Hadoop 分 布 
式 集群 ， 集 群 中 三 台 机 器 的 主机 名 分 别 为 : master、slave1 和 slave2 ， 
其 中 master 作 为 Hadoop 的 NameNode 和 Hbase 的 HMaser ° 


1. 安 装 Chukwa 


首先 需要 在 官网 (http: //incubator.apache.org/chukwa/) 上 下 载 
Chukwa， 然 后 将 其 解压 在 合适 的 目录 下 。 当 前 Chukwa 的 最 新 版 本 为 
0.5.0， 下 面 以 此 版 本 为 例 进行 介绍 。 下 载 并 解压 Chukwa 后 ， 我 们 设置 
Chkuwa 的 环境 变量 如 下 所 示 : 


export CHUKWA_HOME=/home/hadoop/hadoop-1.0.1/chukwa-incubating- 
0.5.0 

export CHUKWA_CONF_DIR=$CHUKWA_HOME/etc/chukwa 

export PATH=$CHUKWA_HOME/bin: $CHUKWA_HOME/sbin: 
$CHUKWA_CONF_DIR: $PATH 


从 上 面 的 配置 中 可 以 看 出 ， 我 们 将 Chukwa 放 在 Hadoop 目 录 下 便于 
管理 。 在 Chukwa 0.5.0 版 本 中 ， 配 置 文件 并 不 在 根 目录 下 的 conf 文 件 
中 ，conf 文 件 已 经 被 删除 ， 取 而 代 之 的 是 Chukwa 根 目录 下 的 
$CHUKWA_HOME/etc/chukwa 目 录 。 为 外 ，Chukwa 的 集群 管理 脚本 也 
并 非 全 部 在 bin 目 录 下 ， 而 是 在 bin 和 sbin 两 个 目录 下 。 故 此 ， 我 们 将 
$CHUKWA_HOME/bin 和 $CHUKWA_HOME/sbin 同 时 加 入 PATH 中 方 
便 操 作 。 


2.Hadoop 和 HBase 和 集群 的 配置 


Hadoop 和 HBase 的 安装 与 配置 我 们 已 经 在 前 面 章节 详细 讲 过 ， 这 
里 不 再 玖 述 。 这 里 主要 介绍 为 了 安装 Chukwa 而 对 Hadoop 和 HBase 集 群 
配置 的 进一步 修改 。 


首先 按照 如 下 命令 ， 将 Chukwa 文 件 复制 到 Hadoop 中 : 


Cp$CHUKWA_CONF_DIR/hadoop- 
log4j .properties$HADOOP_CONF_DIR1/1l0g4j.properties 
Cp$CHUKWA_HOME/etc/chukwa/hadoop- 
metrics2.properties$HADOOP_CONF_DIR/hadoop- 
metrics2.properties 
Cp$CHUKWA_HOME/share/chukwa/chukwa-0.5.0- 
client .jar$HADOOP_HOME/1ib 


Cp$CHUKWA_HOME/share/chukwa/1lib/json-simple- 
1.1. jar$HADOOP_HOME//1ib 


配置 完成 后 重启 Hadoop 集 群 ， 接 着 进行 HBase 的 设置 。 我 们 需要 
在 HBase 中 创建 数据 存储 所 需要 的 表 ， 如 下 所 示 : 


bin/hbase shell<CHUKWA_HOME/etc/chukwa/hbase. schema 


表 的 模式 Chukwa 已 经 定义 好 ， 我 们 只 需要 通过 HBase shell 将 其 导 
ABP AY ° 


3.Collector 的 配置 


首先 我 们 对 $CHUKWA_CONF_DIR/chukwa-env.sh 进 行 配置 。 该 文 
件 为 Chukwa 的 环境 变量 ， 大 部 分 的 脚本 都 需要 从 该 文件 中 读 取 关键 的 
全 局 Chukwa 配 置信 息 。 我 们 需要 对 以 下 变量 进行 设置 : 


export JAVA_HOME=/usr/1lib/jvm/java-6-sun-1.6.0.06 

export HBASE_HOME=/home/hadoop/hadoop-1.0.1/hbase-0.92.1 
export HBASE_CONF_DIR=$HBASE_HOME/conf 

export HADOOP_HOME=/home/hadoop/hadoop-1.0.1 

export HADOOP_CONF_DIR=$HADOOP_HOME/conf 


注意 ”如 果 已 经 在 系统 环境 变量 中 《如 /etc/profile 文 件 ) 配置 了 上 
述 参 数 ， 那 么 这 里 可 以 省 略 。 需 要 格外 注意 的 是 ，chukuwar-envsh 中 参 
数 的 优先 级 要 高 于 /etc/profile 文 件 中 相同 的 参数 ， 一 定 妥 保证 优先 级 高 
的 参数 设置 正确 。 


BIN, Se BSS Bilas (PAW Ra Ne, BB 
$CHUKWA_CONF_DIR/collectors 文 件 ， 该 文件 定义 了 哪 台 机 器 运 行 收 
集 器 进程 。 配 置 文件 格式 与 Hadoop 的 $HADOOP_CONF_DIR/slaves 文 
件 类 似 ， 每 行 代表 一 台 机 器 。 在 默认 情况 下 该 文件 只 包含 一 行 记 录 : 
配置 localhost 运 行 收集 器 进程 。 


另外 ，$CHUKWA_CONEF_DIRyvinitial_Adaptors 文 件 主要 用 于 设置 
Chukwa 监 控 哪 些 日 志 ， 以 及 以 什么 方式 、 什 么 频率 来 监控 等 。 使 用 默 
认 配 置 即 可 ， 如 下 所 示 : 


add sigar.SystemMetrics SystemMetrics 60 0 
add SocketAdaptor HadoopMetrics 9095 0 

add SocketAdaptor Hadoop 9096 0 

add SocketAdaptor ChukwaMetrics 9097 0 

add SocketAdaptor JobSummary 9098 0 


CHUKWA_CONF_DIR/chukwa-collector-conf. xml 维 护 了 Chukwa 的 
基本 配置 信息 。 我 们 需要 通过 该 文件 指定 HDFS 的 位 置 ， 如 下 所 示 : 

<property> 

<name>writer.hdfs.filesystem< /name > 

<value>hdfs: //Master: 9000/</value> 

<description>HDFS to dump to</description> 

</property> 

writer. hdfs.filesystem + Hhdfs: //master: 9000/ 是 Hadoop 分 布 式 文 
件 系统 的 地 址 ，Chukwa 将 利用 它 来 存储 数据 ， 可 以 根据 实际 地 址 对 其 
进行 修改 。 


下 面 的 属性 设置 用 于 指定 sink data 地 址 ( 见 代 码 内 
X) ，/chukwa/logs/ 就 是 它 在 HDFS 中 的 地 址 。 在 默认 情况 下 ， 
Collector 监 听 8080 端 口 (代码 如 下 所 示 ) ， 不 过 这 是 可 以 修改 的 ， 各 
个 Agent 将 会 癌 该 端口 发 消息 。 


<property> 

< name > chukwaCollector.outputDir </name > 

<value > /chukwa/logs/</value> 

<description>Chukwa data sink directory</description> 

</property> 

<property> 

< name > chukwaCollector.http.port </name > 

<value > 8080</value > 

<description>The HTTP port number the collector will listen on 
</description> 

</property> 


4.Agent 的 配置 


Agent 由 $CHUKWA_CONF_DIR/agents 文 件 进行 配置 ， 该 配置 文 

件 的 格式 与 $CHUKWA_CONF_DIR/collectors 相 似 ， 每 行 代表 一 台 运 行 

Agent 的 机 器 。 如 下 所 示 为 我 们 运行 Agent 的 设置 : 
master 


slavel 
slave2 


另外 ，CHUKWA_CONEF_DIR/chukwa-Agent-conf.xml 文 件 维护 了 
代理 的 基本 配置 信息 ， 其 中 最 重要 的 属性 是 集群 名 ， 用 于 表示 被 监控 


的 节点 ， 这 个 值 被 存储 在 每 一 个 被 收集 到 的 块 中 ， 以 区 分 不 同 的 集 
群 ， 如 设置 cluster 名 称 : cluster="chukwa" ° 

<property> 

< name > chukwaAgent . tags < /name > 

<value >cluster="chukwa" </value > 

<description>The cluster's name for this Agent</description> 

</property> 

另 一 个 可 选 的 和 点 是 chukwaAgent.checkpoint.dir， 这 个 目录 是 

Chukwa 运 行 Adaptor 的 定期 检查 点 ， 它 是 不 可 共享 的 目 永 ， 并 且 只 能 


征 本 地 目 孙 ， 不 能 是 网 络 文件 系统 目 孙 。 


5. 使 用 Pig 进 行 数据 分 析 


我 们 可 以 使 用 Pig 进 行 数据 分 析 ， 因 此 需要 额外 设置 环境 变量 。 要 
让 Pig 能 够 读 取 Chukwa 收 集 到 的 数据 ， 即 与 HBase 和 Hadoop 进 行 连接 ， 
目 完 需要 确保 Pig 已 经 正确 安 狼 ,然后 在 Pig 的 classpath 中 引入 Hadoop 和 
HBase 的 配置 文件 目录 ， 如 下 所 示 : 


export PIG_CLASSPATH=$HADOOP_CONF_DIR: $HBASE_CONF_DIR 


接 下 来 创建 HBASE_CONF_DIR 的 JAR 文 件 : 


jar cf$CHUKWA_HOME/hbase-env.jar$HBASE_CONF_DIR 


创建 周期 性 运行 的 分 析 脚 本 作业 : 


pig-Dpig.additional.jars=${HBASE_HOME}/hbase-0.90.4. jar: 
${ZOOKEEPER_HOME}/ 

zookeeper-3.3.2.jar: ${PIG_HOME}/pig-0.10.0.jar: 
${CHUKWA_HOME}/hbase-env. jar 

${CHUKWA_HOME}/share/chukwa/script/pig/ClusterSummary .pig 


其 中 hbase-env.jar 为 上 一 步 刚 刚 生 成 的 HBASE_CONF_DIR 的 JAR 
文件 。 


17.4.3 “Chukwa 的 运行 


在 启动 Chukwa 之 前 需要 启动 Hadoop 和 HBase， 之 后 需要 分 别 启动 
Collector 进 程 和 Agent 进 程 。 


1.Collector 进 程 的 启动 


在 单个 节点 上 运行 Collector 进 程 可 以 使 用 bin/chukwa collector 命 
&, MR Pim: 
chukwa collector 
hadoop@master: ~/hadoop-1.0.1/chukwa-incubating-0.5.0$ 
OK writer.hdfs.filesystem[URI]=hdfs: //master: 9000 


No checker rules for: chukwaCollector.outputDir 
started Chukwa http collector on port 8080 


在 启动 成 功 后 将 读 出 一 些 系 统 配置 信息 ， 如 上 上 所 示 ，Collector 进 
程 将 监视 8080 端 口 。 另 外 ，Collector 可 以 作为 守护 进程 运行 ， 其 脚本 
命令 是 sbin/start-collectors.sh， 它 将 远程 登录 (SSH) 到 在 
conf/collectors 配 置 中 列 出 的 Collector 地 址 ， 并 且 启 动 一 个 Collector 进 程 


在 后 台 运 行 。 


脚本 命令 sbin/stop-collectors.sh 则 用 来 关闭 Collector 进 程 。 另 外 还 
可 以 通过 bin/chukwa collector sotp 命 令 来 关闭 Collector 进 程 。 


By DAZED boas PHA http: //collectorhost: collectorport/chukwa? 
ping=true， 其 中 ，collectorhost 是 Collector 的 和 点 ，collectorport 是 相应 
的 端口 ， 如 果 Collector 运 行 正 常 ， 一 些 统计 数据 将 在 页 面 中 显示 ， 例 
如 : 


Date: 1337780783926 

Now: 1337780798066 
numberHTTPConnection in time window: 0 
numberchunks in time window: 0 
lifetimechunks: 0 


2.Agentj 进 程 的 启动 


在 单个 节点 上 启动 Agent 进 程 可 以 使 用 bin/chukwa agent 命 令 。 男 外 
也 可 以 通过 sbin/start-agents.sh 来 启动 Agent 进 程 。startragents.sh 脚 本 将 
会 读 取 CHUKWA_CONF_DIR/agents 文 件 ， 并 且 启 动 该 配置 文件 中 所 
列 出 的 所 有 机 器 的 Agent 进 程 。 


3.HICC 进 程 的 启动 


开始 运行 HICC， 输 入 命令 $CHUKWA _HOME/bin/chukwa hicc, 
如 下 所 示 : 


hadoop@master: chukwa hicc 

hadoop@master: ~/hadoop-1.0.1/chukwa-incubating-0.5.0$May 23, 
2012 6: 51: 41 AM com. 

sun. jersey.api.core.PackagesResourceConfig init 

INFO: Scanning for root resource and provider classes in the 
packages: 

org.apache.hadoop.chukwa.rest.resource 


org.apache.hadoop.chukwa.hicc.rest 

May 23, 2012 6: 51: 42 AM 
com.sun.jersey.api.core.ScanningResourceConfig logClasses 

INFO: Root resource classes found: 

class org.apache.hadoop.chukwa.hicc.rest.MetricsController 

class org.apache.hadoop.chukwa.rest.resource.ViewResource 

class org.apache.hadoop.chukwa.rest.resource.UserResource 

class org.apache.hadoop.chukwa.rest.resource.WidgetResource 

class org.apache.hadoop.chukwa.rest.resource.ClientTrace 

May 23, 2012 6: 51: 42 AM 
com.sun.jersey.api.core.ScanningResourceConfig logClasses 

INFO: Provider classes found: 

class 
org.apache.hadoop.chukwa.rest.resource.WidgetContextResolver 

class org.apache.hadoop.chukwa.rest.resource.ViewContextResolver 

May 23, 2012 6: 51: 42 AM 
com.sun.jersey.server.impl.application.WebApplicationImpl 

_initiate 

INFO: Initiating Jersey application, version'Jersey: 1.10 
11/02/2011 04: 41 PM' 


在 Agent 进 程 启动 成 功 后 ， 在 Web 地 址 栏 输入 http: //<Server>: 
< port > hicc 即 可 看 到 Chukwa 的 可 视 化 界面 。 其 中 ，Server 是 主机 名 ， 
<port> 是 jetty 端 口 ， 默 认为 4080， 可 以 根据 需要 对 
$CHUKWA/webapps/hicc.war 文 件 中 /WEB-INF/ 目 录 下 的 jetty.xml 文 件 
进行 修改 ， 如 下 所 示 : 


<Call name="addConnector" > 

<Arg> 

<New class="org.mortbay.jetty.nio.SelectChannelConnector" > 

<Set name="host"><SystemProperty name="jetty.host"/></Set > 

<Set name="port" > <SystemProperty 
name="jetty.port"default="4080"/ > </Set > 

<Set name="maxIdleTime" > 30000</Set > 

<Set name="Acceptors" >2</Set > 

<Set name="statsOn">false</Set > 

<Set name="confidentialPort" >8443</Set > 

<Set name="lowResourcesConnections" > 5000</Set > 

<Set name="lowResourcesMaxIdleTime" > 5000</Set > 

</New> 


</Arg> 
</Call> 


Chukwa HICC 界 面 如 图 17-4 所 示 。 
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在 Cluster Status 表 单 中 可 以 看 到 监控 集群 的 运行 情况 ， 


如 图 17-5 所 
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17-5 ”HICC 监 控 的 集群 运行 


在 DFS Status 表 单 中 可 以 看 到 分 布 式 文件 系统 的 状态 ， 
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如 图 17-6 所 


17-6 HICC 监 控 的 分 布 式 文件 系统 运行 


也 可 以 单 击 菜单 栏 中 Options 选 项 的 Add Widget ( 窗 件 ) ， 癌 网 页 
中 添加 需要 监控 的 窗 件 ， 如 图 17-7 所 示 。 
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图 17-7 向 HICC 添 加 信息 窗 


单 击 信息 窗 右 上 角 的 齿轮 ， 可 以 打开 并 选择 需要 显示 的 度量 指 
标 ， 如 图 17-8 所 示 。 
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图 17-8 ”在 HICC 的 窗 件 中 选择 需要 显示 的 度量 指标 
4. 启 动 Chukwa 的 过 程 
我 们 可 以 按照 如 下 顺序 启动 Chukwa 。 
1) 启动 Hadoop 和 HBase; 


2) 启动 Chukwa: $CHUKWA_HOME/sbin/start-chukwa.sh: 


17.5 “Chukwa 数 据 流 的 处 理 


原始 日 志 收 集 和 聚集 的 流程 是 基于 Chukwa 分 布 式 文件 系统 
(DES) 的 。Chukwa 文 件 在 HDFS 中 的 存储 结构 如 图 17-9 所 示 。 


17-9 ”Chukwa 分 布 式 文件 系统 (DES) 的 结构 


下 面 介绍 Chukwa 文 件 在 HDFS 中 的 存储 流程 。 


1) Collector 将 块 写 到 logs/ 目 录 下 的 *.chukwa 文 件 中 ， 直 到 达到 块 
的 大 小 (64MB) 或 超时 了 ，Collector 关 闭 块 ， 并 且 将 logs/*.chukwa 改 
为 1ogs/*.done 后 绥 的 文件 。 


2) DemuxManager 每 20 秒 检查 一 次 *.done 文 件 。 


如 果 这 些 文件 存在 ， 那 么 移动 它们 到 demuxProcessing/mrInput 
中 ， 之 后 Demux 将 在 demuxProcessing/mrInput 目 录 下 执行 MapReduce 作 
业 。 


如 果 Demux 在 三 次 之 内 成 功 整 理 完 成 MapReduce 文 件 ， 那 么 将 
demuxProcessing/mrOutput 中 的 文件 移动 到 
dataSinkArchives/[yyyyMMdd]/*/*.done 中 ， 否 则 移动 执行 完 MapReduce 
的 文件 
demuxProcessing/mrOutputdataSinkArchives/InError/[yyyyMMdd]/*/*.do 


ne ° 


3) 每 隔 几 分 钟 PostProcessManager 将 执行 聚集 、 排 序 和 去 除 重复 
文件 作业 ， 并 且 将 
postProcess/demuxOutputDir_*/[clusterName]/[dataType]/[dataType]|_lyyy 
yMMdd]_[HH].Re 移 动 到 
repos/[clusterName]/[dataType]/L[yyyyMMdd]/[HH]/[mm]/[dataType]_lyyy 
yMMdd]_[HH]_[N].[N].evt ° 


4) HourlyChukwaRecordRolling 将 会 每 个 小 时 运行 一 次 MapReduce 
作业 ， 然 后 将 每 小 时 的 日 志 数 据 划 分 为 以 5 分 钟 为 日 期 单位 的 日 志 ， 并 
且 移动 
Repos/[clusterName]/[dataType]/[yyyyMMdd]/[HH]/[mm]/[dataType]_[yy 
yyMMdd]_[mm].[N].evt3C(4 2 
temp/hourlyRolling/[clusterName]/[dataType]/[yyyyMMdd]4il 
repos/[clusterName]/[dataType]/[yyyyMMdd]/[HH]/[dataType]_HourlyDon 


e_[yyyyMMdd] [HH].[N].evt 中 ， 同 时 将 文件 保留 到 
Repos/[clusterName]/[dataType]/[yyyyMMdd]/[HH]/rotateDone/ 144% F ° 


5) DailyChukwaRecordRolling 在 凌晨 1: 30 运 行 MapReduce 作 业 ， 
将 以 小 时 为 单位 的 日 志 归 类 到 以 日 为 单位 的 日 志 中 ， 同 时 保留 在 
repos/[clusterName]/[dataType]/[yyyyMMdd]/rotateDone/ 544% F ° 


6) ChukwaArchiveManager KA AE H MapReduce ll 38 
集 和 移 除 dataSinkArchives 中 的 数据 ， 移 动 
dataSinkArchives/[yyyyMMdd]/*/*.done#!/archivesProcessing/mrInput#ll 
archivesProcessing/mrOutput, LAX. 


final Archives/[yyyyMMdd]/*/chukwaArchive-part-* ° 


7) 以 下 目录 下 的 文件 将 随时 间 的 增长 而 增加 ， 因 此 需要 定期 清 
理 。 


final Archives/[yyyyMMdd]/* 


repos/[clusterNamel/[dataTypel/[yyyyMMdd]/*. evt 


17.6 ”Chukwa 与 其 他 监控 系统 比较 


在 了 解 了 Chukwa 的 特点 和 如 何 使 用 之 后 ， 大 家 或 许 会 问 Chukwa 
监控 系统 与 其 他 监控 系统 相 比 有 什么 特点 ， 下 面 我 们 将 通过 介绍 其 他 
监控 系统 特点 来 帮助 大 家 了 解 Chukwa 所 具有 的 特点 。 


Splunk- 是 一 个 日 志 收 集 和 索引 分 析 的 商业 化 系统 ， 它 依赖 于 
集中 的 存储 和 收集 架构 ， 不 考虑 传输 日 志 的 可 靠 性 ， 然 而 在 高 级 日 志 
分 析 领 域 又 有 这 样 的 需求 : 为 了 满足 需求 ， 许 多 大 型 互联 网 公司 都 已 
经 建 了 大 集群 监控 和 分 析 高 级 工具 。 


存在 一 些 专门 的 日 志 收 集 系 统 ， 在 这 些 系统 当中 ，Scribel” 是 一 
个 开源 的 监控 系统 ， 它 的 元 数据 模型 比 Chukwa 傈 单 ， 消 居 古 key-value 
对 ， 其 优点 是 灵活 ， 但 是 缺点 是 要 求 用 户 设 计 目 己 的 元 数据 标准 ， 这 
使 得 用 户 之 间 很 难 分 享 源 代码 。Scribe 的 部 署 由 多 个 服务 器 组 成 ， 它 
们 被 安排 在 有 辣 非 循环 图 中 ， 其 中 的 每 一 个 节点 对 古 否 提交 和 存储 接 
收 信息 都 是 有 具体 规定 的 。 相 比 Chukwa 而 言 ，Scribe 没 有 被 设计 成 兼 
容 传统 的 应 用 ， 被 监控 的 系统 必须 通过 Thrift RPC 服 务 发 送 消息 给 
Scribe。 这 样 的 优点 在 于 避免 在 通 稼 情况 下 的 本 地 写 开销 ， 使 消 轧 可 
以 无 误 地 传输 ; 缺点 是 在 对 不 适用 于 Scribe 的 数据 源 进 行 收集 时 需要 
额外 的 处 理 。 相 对 而 言 ，Chukwa 处 理 这 样 的 问题 就 平滑 得 多 。Scribe 
在 传送 上 的 可 靠 性 也 弱 于 Chukwa。 一 旦 数据 被 提交 到 Scribe 服 务 器 ， 


HRA ee A oe, MIR SARS a T Ja SEPSIS IRA TBS 
存 数据 。 这 束 意 味 着 Scribe 服 务 絮 故障 可 能 造成 数据 丢失 ， 同 时 也 没 
有 一 个 端 到 端的 传输 保证 ， 这 征 因为 原始 发 送 者 没有 保留 一 个 副本 。 
客户 端 在 同 多 个 服务 右 发 送 消 居 时 ， 如 采 在 发 送 失 败 之 前 没有 找到 一 
个 正常 工作 的 Scribe Server， 那 么 数据 将 会 丢失 。 


另 一 个 相关 的 系统 是 Artemis， 它 是 由 Microsoft 研 究 设计 的 ， 用 来 
调试 大 规模 Dryad 集 群 。Artemis 是 为 针对 上 下 文 而 专门 设计 的 : 它 只 
在 本 地 处 理 日 志 ， 使 用 DryadLINQII 作为 处 理 引擎。 该 架构 的 优点 是 
避免 了 网 络 中 多 个 副本 的 元 余 ， 也 使 系统 资源 可 以 重复 利用 正在 分 析 
和 已 经 分 析 的 结果 ; 缺点 是 如 果 一 个 节点 坏 掉 或 暂时 不 能 用 ， 查 询 会 
给 出 错误 的 结果 。Artemis 没 有 被 设计 成 使 用 长 期 可 靠 的 存储 ， 因 为 那 
需要 除 本 地 以 外 的 副本 ; 另外 ， 在 本 地 分 析 对 于 监控 商业 服务 来 说 也 
是 不 理想 的 ， 因 为 其 分 析 数 据 功能 可 能 会 干扰 正在 被 监控 的 系统 。 


还 有 一 些 其 他 监控 系统 工具 ， 像 Astrolabe、Pier 和 Gangliall012] 被 
设计 成 能 帮助 用 户 查 询 分 布 式 系统 监控 信息 的 系统 。 在 所 有 的 情况 
下 ， 每 个 被 监控 机 器 上 的 客户 端 都 存储 了 一 定量 的 数据 用 于 答复 查 
询 。 因 为 客户 端 不 收集 和 存储 大 数据 集 的 结构 化 数据 ， 所 以 它们 不 适 
合 一 般 目 的 的 编程 模型 。 它 们 通过 在 系统 中 应 用 一 个 特殊 的 数据 聚集 
策略 来 实现 可 扩展 性 ， 但 是 这 会 耗费 较 大 的 系统 性 能 。 相 比 而 言 ， 因 


为 Chukwa 从 收集 过 程 中 和 剥离 了 分 析 过 程 ， 所 以 每 一 个 部 分 部 署 都 可 以 
独立 地 扩展 。 


Ganglia 擅 长 实时 故障 侦 测 ， 相 对 而 言 ，Chukwa 会 有 分 钟 级 的 延 
IR, 但 考虑 到 系统 能 在 分 钟 级 处 理 海量 数据 ， 并 且 能 够 敏锐 侦 测 到 运 
行 变化 ， 同 时 会 对 故障 诊断 有 所 帮助 ， 而 工程 师 一 般 不 能 对 秒 级 别 的 
事件 有 所 有 反应， 所 以 分 钟 级 的 延 时 是 被 允许 的 。 


17.7 本 章 小 结 


Chukwa 作 为 Hadoop 的 子 项 目 ， 既 能 帮助 Hadoop 处 理 其 日 志 ， 也 
能 利用 MapReduce 对 日 志 进 行 分 析 处 理 。 在 Chukwa 的 帮助 下 ，Hadoop 
用 户 能 够 清晰 了 解 系统 运行 的 状态 ， 分 析 作 业 运 行 的 状态 及 HDFS 的 
文件 存储 状态 ， 从 而 对 整个 分 布 式 系统 状态 有 形象 直观 的 了 解 。 


和 Hadoop 一 样 ，Chukwa 也 是 一 个 分 布 式 系统 ， 它 虽然 构建 于 
Hadoop 之 上 ， 但 是 本 身 也 有 自己 的 特点 。 它 利用 分 布 在 各 个 节点 上 
Agent 进 程 中 的 Adaptor 收 集 各 个 节点 被 监控 的 信息 ， 然 后 以 块 的 形式 
通过 HTTP Post 汇 集 到 Collector， 再 由 它 处 理 后 转 储 到 HDFS 中 。 之 后 
这 些 数 据 由 Archiving 处 理 (去 除 重复 数据 和 合并 数据 ) 提纯 ， 再 由 
Demux 利 用 MapReduce 将 这 些 数据 转换 成 结构 化 记录 ， 并 存储 到 数据 
库 中 ，HICC 通 过 调用 数据 库 中 的 数据 向 用 户 展示 可 视 化 后 的 系统 状 


Ñ o 
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要 想 利 用 好 Chukwa 这 个 工具 ， 就 必须 对 Hadoop 的 各 个 配置 项 都 有 
清晰 的 认识 。 同 时 Chukwa 这 个 项 目 自身 也 在 不 断 完 善 中 ， 感 兴趣 的 读 
者 可 以 持续 跟 进 。 以 下 是 其 官网 地 址 : 


http: //incubator.apache.org/chukwa/ ° 
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本 章 小 结 


18.1 Hadoop Studio 的 介绍 和 使 用 


18.1.1 Hadoop Studio 的 介绍 


Hadoop Studio 是 一 个 加 快 Hadoop 开 发 进程 的 可 视 化 开发 环境 。 
Hadoop Studio 通 过 降低 Hadoop 的 使 用 复杂 度 ， 让 用 户 在 更 少 的 步骤 内 
完成 更 多 的 事情 以 提高 效率 。Studio 有 专业 版 和 大 众 版 两 个 版 本 ， 大 
众 版 仅 需 要 注册 就 可 以 获得 ， 本 章 介绍 的 Studio 都 指 大 众 版 Studio。 用 
户 可 以 通过 Hadoop Studio 强 大 的 GUI 部 署 Hadoop 任 务 ， 并 监控 Hadoop 
任务 的 实时 信息 。 它 主要 有 以 下 优点 : 


简化 并 加 快 了 Hadoop 任 务 模型 建立 、 开 发 和 调试 的 进程 。 


够 实时 地 定义 、 管 理 、 可 视 化 和 监视 作业 、 集 群 和 文件 系统 
查看 任务 的 实时 工作 情况 ;能够 让 用 户 通过 观察 输入 输出 和 
中 间 结 果 的 工作 流程 图 来 管理 任务 的 执行 时 间 。 
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具有 很 强 的 移植 性 ， 能 够 被 部 车 在 任何 操作 系统 和 任何 版 本 的 私 
有 或 公有 Hadoop 云 系统 上 ， 且 服务 能 通过 代理 服务 器 和 防火 墙 而 不 受 


影响 。 


Hadoop Studio 的 优点 决定 了 无 论 用 户 是 只 有 极 少 MapReduce 或 
Hadoop 开 发 经 验 的 Java 程 序 员 ， 还 是 熟练 的 并 行程 序 开发 者 ， 它 都 能 
简化 用 户 的 工作 ， 提 高 其 工作 效率 。 而 这 主要 是 从 设计 、 部 署 、 调 试 
和 可 视 化 四 个 方面 来 实现 的 。 


1) 设计 : 由 于 Studio 能 够 仿真 Hadoop 系 统 ， 所 以 用 户 初 期 建立 
MapReduce 任 务 模型 时 吏 不 需要 真正 的 集群 ， 这 可 以 帮助 用 户 迅 速 上 
手 。 


2) 部 署 : 无 论 用 户 使 用 的 是 私有 网 络 内 的 集群 还 是 公共 网 络 上 的 
集群 ，Studio 都 能 简化 用 户 任 务 的 部 署 而 且 不 受 服务 器 和 防火 墙 的 影 
啊 。 在 Hadoop Studio 环 境 下 ， 用 户 只 需要 简单 几 步 便 可 以 局 动 计算 任 
务 : 首先 在 Hadoop Jobs 中 添加 生成 好 的 JAR 包 ， 人 然后 选择 要 执行 的 主 
类 ， 添 加 依赖 项 ， 并 选择 执行 任务 的 目标 Cluster 闻 点 和 目标 
Filesystems 即 可 完成 启动 。 


3) 调试 MapReduce 编 程 中 最 具 挑 战 性 的 领域 之 一 就 是 在 集群 上 
调试 MapReduce 任 务 。Studio 提 供 了 可 视 化 工具 和 任务 实时 监控 ， 并 文 
持 图 表 化 Hadoop 任 务 执行 状态 (包括 作业 类 型 、 完 成 情况 、 执 行 状 
态 、 起 止 时 间 、 报 错 信息 、 输 出 结果 等 ) 和 查看 任务 计数 器 ， 这 都 使 


得 调试 MapReduce 变 得 容易 起 来 。 


4) 可 视 化 ， 强 大 的 图 形 用 户 界面 能 够 使 用 户 不 用 关注 分 布 式 平台 
的 细 市 束 可 以 编写 程序 、 调 试 程序 、 管 理 集群 和 文件 系统 、 配 置 任务 
言 轧 和 日 志文 件 等 ， 这 都 为 用 户 节 省 了 时 间 。 同 时 疼 形 界面 还 能 让 用 
户 通过 实时 查看 输入 输出 和 中 间 绪 有 果 的 流程 图 等 其 他 任务 信息 来 管理 
任务 的 执行 情况 。 


Hadoop Studio 是 一 个 强大 的 Hadoop 插 件 ， 它 具有 众多 优点 ， 能 够 


简化 用 户 Hadoop 开 发 过 程 ， 提 高 用 户 的 效率 。 


18.1.2 Hadoop Studio 的 安装 配置 


Hadoop Studio 专 广 于 简化 数据 处 理 。 为 满足 其 广泛 的 可 用 人 性， 
Hadoop Studio 开 发 和 部 署 环 境 的 要求 都 设计 得 很 简单 。 表 18-1 是 它 的 
开发 和 部 署 环境 要 求 : 


表 18-1 Hadoop Studio 开发 环境 
环境 要 求 
Hadoop 版 本 要 求 | Apache Hadoop (0.20). Amazon EMR 或 S3、Cloudera、IBM InfoSphere BigInsights 或 Yahoo! 
操作 系统 Mac. Microsoft Windows. Linux 


开发 环境 Eclipse (ARA 3.5 或 更 高 ) 


从 这 个 表 中 可 以 看 出 Studio 的 开发 可 以 基于 Eclipse。 下面 ， 我 们 
以 基于 Eclipse (安装 在 Linux 系 统 上 ) 的 大 众 版 Hadoop Studio 为 例 介绍 
其 安装 和 使 用 方法 。 


基于 Eclipse 安装 Hadoop Studio 需 要 一 个 集成 开发 环境 (IDE) ` 
Java 平 台 和 Java SE， 并 且 首 移 需 要 有 以 下 软件 的 文 持 ， 如 表 18-2 所 


人 小? 


表 18-2 Hadoop Studio 的 软件 支持 

3.3《 或 更 高 ) 

1.6《【《 或 更 商 】 

Java 环境 或 Java SE 


Eclipse IDE BR 4s 
Java RR AR 


开发 环境 
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Eclipse 之 后 如 何 安装 基于 Eclipse 的 大 众 版 Hadoop Studio ° 


Hadoop Studio 是 Eclipse 的 一 个 插件 ， 在 启动 Eclipse 之 后 依次 点 击 
Help 荣 单 下 的 Pstall New Software — 541th HyInstall A O > Add， 然 后 在 
弹出 的 Add Repository 窗 口中 填 入 以 下 信息 


Name: Karmasphere Studio Plugin 


Location: http: //updates. karmasphere.com/dist/< <serial_key > 


> /Eclipse/site.xml 


填 完 之 后 点 击 OK。 接 下 来 在 Install 和 窗口 下 会 出 现 可 能 需要 安装 的 
插件 ， 选 择 Karmasphere Studio Community Edition 或 者 Karmasphere 
Studio Professional Edition， 之 后 一 直 点 击 Next 并 选择 I accept the terms 
of the license agreements。 接 下 来 Hadoop Studio 插 件 将 会 自动 下 载 并 安 
装 。 中 途 如 果 出 现 Security Waring O, ， 选 择 OK 安 装 就 会 继续 
结束 后 重启 Eclipse 即 能 正常 使 用 。 现 在 最 新 版 本 的 Studio 是 1.11。 


18.1.3 Hadoop Studio 的 使 用 举例 


下 面 以 本 地 MapReduce 任 务 的 开发 、 调 试 和 部 署 及 远程 部 署 为 
例 ， 介 绍 Hadoop Studio 的 使 用 情况 。 


1. 本 地 开发 、 调 试 和 部 署 
(1) 本 地 的 开发 和 调试 


Hadoop Studio 的 任务 开发 工具 允许 用 户 开发 并 调试 MapReduce 任 
° Hadoop Studio 可 以 降低 MapReduce 编 程 的 入 门 门槛 ， 因 为 有 了 
， 用 户 可 以 在 不 需要 集群 支持 的 情况 下 ， 不 断 开发 和 调试 自己 的 任 
务 以 避免 延误 整个 工程 的 开发 周期 。 接 下 来 我 们 介绍 两 个 工作 流程 并 
说 明 如 何在 本 地 部 署 它 们 ， 让 大 家 熟悉 Hadoop Studio 开 发 工具 的 使 用 
方法 ， 这 两 个 工作 流程 中 一 个 使 用 MapReduce 预 定义 类 (WordCount 
Workflow) ， 另 一 个 使 用 MapReduce 自 定义 类 (Pi Project 


ok Wt 


Workflow) 。 
WordCount 工 作 流 
1) 创建 一 个 名 为 WordCountProject 的 Java 工 程 “详细 过 程 略 ) ; 


2) 创建 一 个 MapReduce 工 程 。 


为 了 使 用 Hadoop Studio， 我 们 需要 引用 Karmasphere 和 Hadoop 
libraries， 右 键 点 击 步 又 1) 中 创建 的 Java 工 程 ， 选 择 Build Path > Add 
Libraries， 接 着 选择 弹出 窒 口 中 的 Hadoop Libraries from Karmasphere 并 
点 击 Next， 在 弹出 的 窗口 中 选择 Karmasphere Client for Hadoop 并 点 击 
finish。 然 后 右键 点 击 WordCountProject 工 程 ， 选 择 New > Other， 接 着 
选择 Hadoop Jobs 下 的 Hadoop Map-Reduce Job (Karmasphere API) 并 
点 击 finish。 再 然后 展开 Eclipse 工作 区 面板 中 的 WordCountProject， 双 
击 src 下 的 HadoopJob.wordfolw。 出 现下 面 的 界面 (如 图 18-1 所 示 ) : 


Madoopiom mifiow > 
Bocttrap input | Mapper | Patitionse Comparator | Combiner | Aechucer | Output 
In@ut Resources r 


barmasphereureut ot nout bt Browse | 


18-1 Hadoop Studio 工 程 配 置 图 


点 击 窗口 界面 中 第 一 行 的 Bootstrap 按 钮 ， 再 点 击 相 应 页 面 中 的 
Browse 按 钮 ， 打 开 文 件 系统 上 的 一 个 文件 ， 然 后 保存 工程 。 这 样 
Studio 束 会 为 你 的 工程 生成 所 有 的 代码 并 且 进 行 编译 。 在 图 18-1 的 窗口 
中 有 很 多 选项 卡 ， 点 击 各 个 选项 卡 用 户 可 以 查看 目 己 工程 所 处 的 状态 
和 输入 数据 在 各 个 时 间 总 对 工程 的 影响 。 用 户 也 可 以 点 击 选项 卡 设置 
对 应 的 工程 配置 参数 。 


现在 先 点 击 Input 选 项 卡 ， 在 Class name 一 栏 中 输入 
org.apache.Hadoop.mapred.TextInputFormat， 将 输入 文件 的 格式 设 定 为 
TextInputFormat。 再 点 击 Mapper 选 项 卡 ， 在 Class name 一 栏 输入 
org.apache.Hadoop.mapred.lib.TOKenCountMapper， 为 Mapper 的 计数 令 
牌 设 定 类 的 格式 。 接 着 点 击 Partitioner 选 项 卡 ， 在 Class name 一 栏 输入 
org.apache.Hadoop.mapred.lib.HashPartitioner， 以 设 定 Partitioner 的 类 。 
随后 点 击 Comparator 选 项 卡 ， 在 Class name 一 栏 输入 
org.apache.Hadoop.io.Text.Comparator 选 定 Text Comparator ° 然后 点 击 
Combiner， 在 Classname 一 栏 输入 
org.apache.Hadoop.mapred.lib.IdentityReducer， 选 定 Identity Reduce。 再 
然后 点 击 Reducer， 在 Class name 一 栏 输入 
org.apache.Hadoop.mapred.lib.LongSumReducer， 选 定 Long Sum 
Reducer。 最 后 点 击 Output 选 项 卡 ， 在 Class name 中 输入 


org.apache.Hadoop.mapred.TextOutputFormat， 以 设 定 output 的 数据 类 
型 o 


Pi Project 工 作 流 


1) 创建 新 的 Java 工 程 ， 按 照 上 面 WordCountProject 中 添加 工作 流 
的 步骤 添加 一 个 工作 流 。 如 图 18-2 所 示 。 
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Hadoop Studio 新 创建 的 工程 


2) 右键 点 击 PiProject， 选 择 New ~ Other。 选 择 New 窗 口中 Hadoop 


Types 下 的 Hadoop Mapper， 然 后 点 击 finish。Package Explorer 中 的 
PiProject 工 程 下 会 出 现 HadoopMapperjava， 按 照 同 样 的 步骤 添加 
HadoopReducerjava。 双 击 HadoopMapperjava 打 开 界 面 ， 输 入 下 面 的 代 


Ay: 


package cn.edu.ruc.cloudcomputing.book.chapter18; 
java.util.Randon; 
java.io.IOException; 


import 
import 
import 
import 
import 
import 
import 
import 
JEK 


* 


*/ 


org. 
org. 


org 


org. 
org. 


org 


apache. 
apache. 
„apache. 
apache. 
apache. 
„apache. 


Hadoop 
Hadoop 
Hadoop 
Hadoop 


Hadoop. 
Hadoop. 


.mapred.MapReduceBase; 
.mapred.Mapper; 
.mapred.OutputCollector; 
.mapred.Reporter; 
io.Text; 
io.LongwWritable; 


public class HadoopMapper extends MapReduceBase implements 
Mapper<Text, Text, Text, 
Longwritable> { 
public void map (Text key, Text value, OutputCollector<Text, 
Longwritable> output, 


Reporter reporter) 


throws IOException{ . 
Random generator=new Random () ; 


int i; 


final int iter=100000; 


for (i=0; i<iter; i++) 

{ 

double x=generator.nextDouble () ; 

double y=generator.nextDouble () ; 

double z; 

Z=x*xt+y*y; 

if (z<=1) 

output.collect (new Text ("VALUE") , new Longwritable (1) ) ; 
else 

output.collect (new Text ("VALUE") , new LongWritable (0) ) ; 


} 
} 
} 
} 


再 双击 HadoopReducerjava 打 开 界 面 ， 输 入 下 面 代码 : 


package cn.edu.ruc.cloudcomputing.book.chapter18; 

import java.io. IOException; 

import java.util.Iterator; 

import org.apache.Hadoop.mapred.MapReduceBase; 

import org.apache.Hadoop.mapred.OutputCollector; 

import org.apache.Hadoop.mapred.Reducer; 

import org.apache.Hadoop.mapred.Reporter; 

import org.apache.Hadoop.io.Text; 

import org.apache.Hadoop.io.Longwritable; 

import org.apache.Hadoop.io.DoubleWritable; 

public class HadoopReducer extends MapReduceBase implements 
Reducer <Text, LongWrit- 

able, Text, DoubleWritable> { 

publicvoidreduce(Textkey, Ilterator< 
LongwWwritabtle>value, 

OutputCollector<Text, DoubleWritable>output, Reporter 
reporter) 

throws IOException{ 

double pi=0; 

double inside=0; 

double outside=0; 

while (value.hasNext () ) 


if (value.next () .get () == (long) 1) 
inside++; 

else 

outside++; 


i 


pi= (4*inside) / (insidetoutside) ; 

output.collect (new Text ("pi") , new DoubleWritable (pi) ) ; 
} 

} 


石 键 点 击 Eclipse 菜 单 栏 中 的 Project 选 项 卡 ， 查 看 Build 
Automatically he Ait, WRIA, WEA Project FAYBuild 
Project。 需 要 注意 的 是 ，Build Automatically 对 于 Studio 生 成 的 Hadoop 
Job 默 认 是 选中 的 。 之 后 点 击 HadoopJob.wordflow 下 的 Bootstrap ， 接 着 
点 击 Browse 选 择 输入 文件 ， 并 点 击 input 选 项 卡 设 定 输入 格式 为 
org.apache.Hadoop.mapred.KeyValueTextInputFormat。 然 后 点 击 mapper 
选项 卡 输入 HadoopMapper 选 定 HadoopMapper。 点击 Partitioner 选 项 卡 
输入 org.apache.Hadoop.mapred.lib.HashPartitionerj 先 定 Hash Partitioner ° 
点 击 Comparator 选 项 卡 ， 输 入 org.apache.Hadoop.io.TextComparator 选 定 
Text Comparator ° 点 击 Reducer 选 项 卡 ， 输 入 HadoopReducer 选 定 
Hadoop Reducer。 最 后 点 击 Output 选 项 卡 输入 


org.apache.Hadoop.mapred.TextOutputFormat 先 定 输出 数据 格式 。 
(2) 本 地 任务 部 署 
Hadoop Studio 使 用 户 能够 将 自己 的 本 地 任务 部 署 成 线程 模式 。 这 
里 我 们 介绍 将 本 地 工作 流 任务 和 JAR 包 任务 部 署 成 线程 模式 的 详细 步 


了 又， 包括 工作 流 和 JAR 文 件 。 需 要 注意 的 是 如 采 读 者 使 用 的 是 
Windows 系 统 ， 则 需要 移 安装 Cygwin 模 拟 Linux 环 境 。 


部 署 工作 流 


打开 上 面 已 经 创建 的 PiProject 工 程 中 的 工作 流 ， 点 击 Eclipse 工 具 
栏 中 最 后 一 个 Deploy 按 钮 ， 设 定 Deployment 窗 口中 Target Cluster 和 Data 
Filesystem 的 参数 值 ， 分 别 为 In-Process Thread (0.20.2) 和 Local 
Filesystem C: \， 然 后 点 击 OK。 当 工作 流 在 本 地 部 署 完成 时 ， 在 
Output 和 窗口 下 就 可 以 看 到 实时 执行 状态 了 。 


首先 还 是 打开 上 面 已 经 创建 的 PiProject 工 程 中 的 工作 流 ， 然 后 选 
+#Eclipse > window > Open Perspective > Other ~ Hadoop， 点 击 OK 之 后 
会 打开 Hadoop 视 图 。 在 Jobs 上 右键 点 击 选 择 New Job， 输 入 Job Name, 
选择 Job Type 为 Hadoop Job from pre-existing JAR file， 点 击 Next， 然 后 
选择 要 部 署 的 JAR 文 件 并 点 击 Next。 接 着 选择 Default Cluster 为 In- 
Process Thread (0.19.3) ， 设 定 Default Arguments 为 pi 10 10000。 最 后 
右键 点 击 新 建 的 Job， 选 择 Execute Job。 到 此 JAR 文 件 的 部 署 已 经 完 
成 。 同 样 在 JAR 文 件 部 署 完成 之 后 ， 束 可 以 在 Output 窒 口中 查看 Job 的 
实时 执行 状态 了 。 


2. 集 群 部 署 


(1) 新 建 Hadoop HDFS 


为 了 使 用 HDFS， 我 们 首先 需要 在 Hadoop 视 图 下 创建 一 个 文件 系 
统 。Hadoop Studio 允 许 用 户 通过 Socket 或 SSH 连 接 、 浏 览 、 读 写 一 
HDFS。 它 有 一 个 内 置 的 用 来 展示 本 地 文件 系统 的 选项 。 


自 完 ， 让 我 们 打开 Hadoop 视 图 创建 一 个 文件 系统 选项 。 石 键 点 击 
Filesystem 选 择 New Filesystem， 在 打开 的 窗口 中 输入 文件 系统 的 名 字 
并 设 定 Filesystem Type 为 Hadoop HDFS Filesystem。 接 下 来 配置 运行 


HDFS 的 NameNode。 如 果 计 划 通 过 SSH 连 接 ， 那 么 需要 将 NameNode 
Host 配 置 成 localhost， 然 后 再 配置 NameNode Port ` Hadoop Version ` 
Username、Group 并 点 击 finish， 接 下 来 将 连接 类 型 配置 成 DIRECT， 之 
后 点 击 finish 完 成 文件 系统 选项 的 创建 。 右 键 点 击 创建 的 文件 系统 选 
项 ， 选 择 Open Filesystem 可 以 浏览 文件 系统 项 目 ，Studio 将 会 创建 同文 
件 系统 的 连接 ， 并 打开 Filesystem Browser 窗 口 以 便于 用 户 查 看 管理 文 
件 系统 。 


(2) 监控 HDFS 


Hadoop Studio 可 以 图 形 化 地 摘 述 HDFS 文 件 系 统 的 状态 ， 在 需要 
查看 的 文件 系统 上 点 击 右 键 选择 Monitor status 束 可 以 查看 。 当 然 前 所 
是 用 户 已 经 创建 了 文件 系统 。 


(3) 创建 Hadoop 和 集群 


要 在 分 布 式 Hadoop 集 群 上 部 署 、 调 试 、 监 控 ， 需 要 先 在 Hadoop 视 
图 下 创建 集群 选项 。Hadoop Studio 人 允许 用 户 在 集群 上 运行 自己 的 任务 
并 通过 图 表 监 探 集 群 的 状态 。 


,一 /一 


Hadoop Studio 有 一 个 内 置 模拟 集群 的 选项 。 用 户 可 以 用 它 来 运行 
任务 ， 在 测试 小 数据 量 上 任务 的 运行 时 显得 尤其 有 用 。 在 这 里 将 创建 
一 个 Hadoop 集 群 ， 首 先 需 要 添加 一 个 新 的 JobTracker 集 群 。 打 开 
Hadoop 视 图 右键 点 击 Hadoop Clusters 并 选择 New Cluster， 在 出 现 的 窗 


口 输入 Cluster Name， 选 择 Cluster Type 为 Hadoop Cluster 

(JobTracker) ， 再 设 定 正确 的 Hadoop Version 和 Default Filesystem ° 点 
击 Next 之 后 再 配置 集群 ， 输 入 JobTracker Host、JobTracker Port 和 
Username， 之 后 点 击 Next。 接 下 来 配置 Hadoop 集 群 的 通信 机 制 ， 有 和 直 
接 通信 、Socket 和 可 选 SSH。 我 们 这 里 设置 为 直接 通信 。 然 后 点 击 
finish 完 成 Hadoop 集 群 的 创建 


(4) 监控 正在 运行 的 任务 


Hadoop Studio 可 以 解释 并 显示 用 户 Hadoop 集 群 在 运行 任务 时 保存 
的 日 志文 件 和 错误 诊断 信息 。 这 个 功能 使 用 户 可 以 监控 自己 任务 的 执 
行情 况 ， 并 且 分 析 任 务 的 执行 结果 。 当 MapReduce Job 运 行 时 ， 
Hadoop Studio 会 切换 到 Job Monitor 视 图 ， 在 这 个 视图 上 用 户 可 以 看 到 
任务 的 执行 信息 。Job Monitor 视 图 列 出 了 集群 上 所 有 任务 的 信息 
择 一 个 任务 并 点 击 Task Monitor 按 钮 ， 就 可 以 看 到 这 个 任务 的 


Summary、Timeline、Logs、Tasks 和 Config 等 信息 。 如 果 需 要 监控 集群 
的 状态 ， 可 以 右键 点 击 对 应 集群 并 选择 Monitor Status, Monitor Status ff 
口 就 会 列 出 Map Attempts、Reduce Attempts、Task Trackers 和 User 
Accounting 的 统计 表格 。 


(5) 部 署 运行 任务 


Hadoop Studio 允 许 用 户 部 署 三 种 类 型 的 任务 : 工作 流 、JAR 文 件 
和 流 任务 。 这 里 我 们 将 介绍 部 署 这 三 种 类 型 任务 的 步骤 。 需 要 注意 的 

， 如 果 集 群 通过 SSH 连 接 ， 那 么 部 署 的 Job 必 须 是 通过 Hadoop Client 
创建 的 〈 有 具体 过 程 参考 本 章 相关 内 容 ) 。 另 一 个 需要 注意 的 是 保证 
Hadoop 的 版 本 与 集群 的 Hadoop 和 版 本 一 致 。 


工作 流 


创建 一 个 工作 流 OLE) 然后 点 击 deploy， 在 弹出 的 
Deployment 窗 口中 输入 Job Name， 选 择 Target Cluster 和 Data 
Filesystem， 键 入 输入 和 输出 的 参数 ， 然 后 点 击 OK。 需 要 注意 的 是 ， 
输入 参数 的 时 候 需 要 每 个 参数 都 要 占 一 行 或 者 同行 参数 之 间 需 要 空格 
阳 开 ， 并 且 输 出 目录 应 为 空 或 不 存在 。 接 下 来 点 击 OK， 之 后 工作 流 就 
会 部 署 运行 了 ， 在 Output 和 窗口 里 可 以 查看 运行 情况 。 


打开 Hadoop 视 图 ， 碳 键 点 击 Jobs 选 择 New Job。 输 入 Job Name, i 
择 Job Type 为 Hadoop Streaming Job ， 点 击 Next。 再 输入 Input Location 
和 Output Location， 点 击 Next。 接 着 选择 Mapper 和 Reducer 的 types 为 
Raw Command， 在 Mapper 和 Reducer 中 输入 /bin/cat， 然 后 点 击 finish， 
如 果 是 目 己 编写 的 代码 那么 就 需要 在 设置 Mapper 和 Reducer 时 选择 
Upload。 接 下 来 右键 点 击 新 建 的 Job 选 择 Execute Job， 在 确认 各 项 参数 
无 误 之 后 点 击 OK， 这 样 ， 任 务 就 会 部 效 运 行 ， 同 样 可 以 在 Output 中 碍 
看 状态 。 


JAR 文 件 


在 集群 上 部 署 Jar 文 件 需要 用 到 Hadoop Services。 具 体 步 又 是 打开 
Hadoop 视 图 ， 碳 键 点 击 Jobs， 选 择 New Job， 输 入 Job Name， 选 择 Job 
Type 为 Hadoop Job from pre-existing JAR fle， 点 击 Next。 在 弹出 的 窗 
口中 浏览 文件 系统 选择 Primary Jar file， 并 输入 Main Class， 点 击 
Next。 接 下 来 需要 选择 默认 集群 和 默认 参数 ， 配 置 完成 之 后 点 击 
finish。 参 数 输入 格式 的 要 求 和 Job Worflow 中 相同 ， 然 后 右键 点 击 新 创 
建 的 Job， 选 择 Execute Job， 人 确认 参数 无 误 之 后 点 击 OK， 这 样 ， 任 务 
束 会 部 著 运 行 ， 同 样 可 以 在 Output 中 查看 状态 。 


到 这 里 Hadoop Studio 的 使 用 方法 已 经 介绍 完毕 ， 我 们 从 本 机 和 集 
群 两 个 角度 分 别 介绍 了 不 同 任务 的 部 署 和 运行 ， 同 时 还 介绍 了 如 何 使 
用 Hadoop Studio 监 控 用 户 任 务 ， 以 及 利用 其 用 户 界 面 简 化 Hadoop 任 务 


的 创建 、 调 试 、 监 控 和 执行 。Hadoop Studio 的 可 视 化 设计 和 全 面 的 功 
能 大 大 降低 了 基于 Hadoop 项 目的 开发 难度 ， 值 得 所 有 Hadoop 使 用 者 和 
开发 者 使 用 。 


18.2 Hadoop Eclipse 的 介绍 和 使 用 


18.2.1 Hadoop Eclipse 的 介绍 


Hadoop 是 一 个 强大 的 并 行 框架 ， 它 允许 任务 在 其 分 布 式 集群 上 并 
行 处 理 。 但 是 编写 、 调 试 Hadoop 程 序 都 有 很 大 的 难度 。 正 因为 如 此 ， 
Hadoop 的 开发 者 开发 出 了 Hadoop Eclipse 插件 ， 它 在 Hadoop 的 开发 环 
境 中 骨 入 Eclipse， 从 而 实现 了 开发 环境 的 图 形 化 ， 降 低 了 编程 难度 。 
在 安 半 插 件 、 配 置 Hadoop 的 相关 信息 之 后 ， 如 果 用 户 创建 Hadoop 程 
序 ， 插 件 会 目 动 导入 Hadoop 编 程 接口 的 JAR 文 件 ， 这 样 用 户 就 可 以 在 
Eclipse 的 图 形 化 界面 中 编写 、 调 试 、 运 行 Hadoop 程 序 (包括 单机 程序 
和 分 布 式 程序 ， 也 可 以 在 其 中 查看 自己 程序 的 实时 状态 、 错 误 信 息 
和 运行 结果 ， 还 可 以 查看 、 管 理 HDFS 及 其 文件 。 总 的 来 说 ，Hadoop 
Eclipse 插件 安装 简单 ， 使 用 方便 ， 功 能 强大 ， 尤 其 是 在 Hadoop 编 程 方 
面 ， 是 Hadoop 入 门 和 Hadoop 编 程 必 不 可 少 的 工具 。 


18.2.2 Hadoop Eclipse 的 安装 配置 


Hadoop Eclipse 插件 有 很 多 版 本 ， 比 如 Hadoop 官 方 下 载 包 中 的 版 
本 、IBM 的 版 本 等 。 下 面 将 以 Hadoop 官 方 下 载 包 中 的 插件 为 例 介绍 安 
装 和 使 用 方法 。 安 装 插 件 之 前 先 要 安装 Hadoop 和 Eclipse (这 部 分 内 容 
略 去 ， 直 接 介绍 插件 的 安装 ) 。 需 要 注意 的 是 ， 在 Hadoop1.0 版 本 中 ， 
并 没有 像 0.20 版 本 那样 ， 在 HADOOP_HOME/contrib./eclipse-plugin 有 
现成 的 Eclipse 插 件 包 ， 而 是 在 HADOOP_HOME/src/contrib/eclipse- 
plugin 目 录 下 放置 了 Eclipse 插 件 的 源码 。 下 面 将 详细 介绍 如 何 编译 此 源 
码 生 成 适用 于 Hadoop1.0 的 Eclipse 插件 。 


1. 安 装 环境 

操作 系统 : Ubuntu 11.10 
软件 : 

Eclipse 3.7 

Java 1. 6.0_22 

Hadoop 1. 0.1 


2. 编 译 步 又 


1) 首先 需要 下 载 ant 和 ivy 安 装 包 。 将 下 载 的 两 个 安装 包 解 压 到 待 
安装 的 目录 下 ， 然 后 将 ivy 包 中 ivy-2.2.0.jar 包 ant 安 装 目录 的 lb 目录 下 ， 
然后 配置 /etc/profile 中 ant 的 安装 目录 。 在 文件 的 最 末尾 添加 下 面 内 容 


(请 以 自己 的 安装 路 径 蔡 换 下 面 配置 内 容 的 路 径 部 分 ) : 


export ANT_HOME=/home/ubuntu/apache-ant-1.8.3 

export PATH="$ANT_HOME/bin: $PATH" 

2) 将 终端 路 人 径 定 位 到 Hadoop 安 装 目 录 下 ， 执 行 ant compile 。 
命令 需要 执行 的 时 间 稍 长 。 


3) 再 将 终端 的 路 径 定 位 到 HADOOP_HOME/src/contrib/eclipse- 
plugin。 然 后 执行 下 面 的 命令 ， 注 意 -D 后 紧 跟 Eclipse 安装 路 径 和 
Hadoop 版 本 ， 并 没有 空格 。 


ant-Declipse.home=/home/ubuntu/eclipse-Dversion=1.0.1 jar 


4) 命令 执行 完 之 后 ， 就 可 以 在 
HADOOP_HOME/build/contrib/hadoop-eclipse 路 径 下 找到 自己 生成 的 
Eclipse 捅 件 了 。 下 面 就 可 以 安装 配置 Edlipse 搬 件 。 


3. 安 装 步 又 


1) 将 Hadoop Eclipse plugin 移 动 到 Eclipse 的 插件 文件 夹 〈 即 
Eclipse\plugins) 中 。 重 启 Eclipse ° 


2) 在 Eclipse 中 打开 Hadoop 视 图 。 依 次 选择 : 
Eclipse > Window > perspective > Other， 然 后 选择 Map/Reduced 并 点 击 
OK。Eclipse 会 出 现 Hadoop 视 图 。 左 边 Project Explorer 会 出 现 DFS 
Locations， 下 方 选 项 卡 中 会 出 现 Map/Reduce Locations 选 项 卡 。 


3) 在 下 方 选项 卡 中 选中 Map/Reduce Locations， 然 后 在 出 现 的 空 
日 处 右键 点 击 选 择 New Hadoop location...... ， 这 时 会 弹出 配置 Hadoop 
location 的 窗口 。 按 照 下 面 的 提示 正确 配置 Hadoop 。 


Location Name-hadoop 


Map/Reduce Master: 


Host-localhost 


Port-9001 


DFS Master: 


Host-localhost 


Port-9000 


User name- 系 统 用 户 名 


配置 完成 之 后 点 击 finish, Map/Reduce Locations 下 就 会 出 现 新 配置 
的 Map/Reduce location。Eclipse 界 面 左 边 的 DFS location F H tH, H East 
配置 的 DFS， 点 击 “+?” 可 以 查看 其 结构 。 


到 此 ，Hadoop Eclipse 插件 已 经 安装 完成 ， 可 以 辅助 大 家 开发 
MapReduce 程 序 和 管理 HDFS 集 群 。 由 于 对 于 HDFS 的 管理 比较 简单 ， 
下 面 仅 举例 介绍 如 何 使 用 此 插件 来 简化 大 家 MapReduce 程 序 的 编写 。 


18.2.3 Hadoop Eclipse 的 使 用 举例 


自 完 打开 Hadoop 视 图 (图 略 ) ， 然 后 右键 点 击 Project Explorer 空 
白 处 选择 New 一 Project。 在 创建 工程 向 导 中 选择 创建 Map/Reduce 工 
程 ， 然 后 输入 工程 名 ， 点 击 finish， 此 时 Project Explore 中 会 出 现 新 创建 
的 工程 。 接 下 来 就 是 编写 具体 的 MapReduce 代 码 了 ， 有 两 种 做 法 。 一 
种 是 右键 点 击 新 建 工程 然后 新 建 一 个 class， 并 输入 目 己 完整 的 
MapReduce 的 代码 以 新 建 class 代 码 区 。 注 意 ， 代 码 中 的 类 名 要 和 创建 
类 时 输入 的 类 名 相同 ， 代 码 编写 完 之 后 直接 选择 Run on Hadoop 即 可 。 
另外 一 种 方法 是 分 别 建 立 MapReduce Driver、Mapper、Reducer， 再 在 


Hadoop 上 运行 MapReduce Driver。 下 面 详细 介绍 这 两 种 方法 。 
1. 方 法 一 


方法 一 是 在 MapReduce 工 程 下 创建 符合 MapReduce 程 序 框架 的 普 
通 class 文 件 ， 然 后 在 Hadoop 运 行 。 这 种 办 法 直接 明了 ， 有 灵活 性 比较 
高 。 具 体 步 又 如 下 : 


首先 在 刚才 新 创建 的 Hadoop 工 程 上 右键 点 击 依 次 选择 
New 一 class， 然 后 点 击 Next， 输 入 类 名 TestMapReduce 之 后 点 击 
finish。 然 后 在 class 文 件 中 输入 自己 的 MapReduce 框 架 函 数 (本 书 第 6 
章 的 程序 都 可 以 ) 。 


然后 选中 TestMapReduce 之 后 选择 Run on Hadoop ° 4h th Bi Fw 
可 以 看 到 程序 在 Hadoop 上 执行 的 实时 信息 。 


需要 注意 的 是 ， 如 果 选 择 Run as Java Application， 程 序 会 在 类 似 
于 单机 模式 的 Hadoop 上 运行 ， 这 时 程序 的 输入 和 输出 都 是 本 地 的 目 
录 ， 而 不 是 HDFS 上 的 目录 。 
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方法 二 是 在 创建 三 个 MapReduce 框 以 的 类 时 ， 会 目 动 添加 上 继承 
的 类 和 实现 的 接口 以 及 接口 中 需要 复 吉 的 玫 数 ， 这 样 大 家 只 需要 修改 
类 中 的 函数 即 可 ， 非 常 方 便 。 具 体 步 又 如 下 : 


首先 在 刚才 新 创建 的 Hadoop 工 程 上 右键 点 击 依 次 选择 
New > Other > Map/Reduce > Mapper， 然 后 点 击 Next， 输 入 类 名 
TestMapper 之 后 点 击 finish。 在 自动 生成 的 Map 函 数 中 输入 自己 的 处 理 
函数 。 需 要 注意 的 是 ，Mapper 抽 象 类 中 Map 方 法 的 参数 类 型 和 上 自动 生 
成 的 不 匹配 ， 只 需要 按照 提示 修改 自动 生成 Map 函 数 的 参数 类 型 就 可 
以 了 。 


接 下 来 在 刚才 新 创建 的 Hadoop 工 程 上 右键 点 击 依次 选择 
New > Other > Map/Reduce Reducer， 然 后 点 击 Next， 输 入 类 和 名 
TestReducer 之 后 点 击 finish。 在 目 动 生成 的 Reduce 函 数 中 输入 目 己 的 处 


理 函 数 。 同 样 需 要 按照 提示 修改 上 自动 生成 Map 函 数 的 参数 类 型 ， 使 其 
和 Reducer 抽 象 类 中 Reduce 方 法 的 类 型 匹配 。 


最 后 在 刚才 新 创建 的 Hadoop 工 程 上 右键 点 击 依次 选择 
New > Other > Map/Reduce > MapReduceDriver， 然 后 点 击 Next， 输 入 
类 名 TestDriver 之 后 点 击 finish。 如 果 生 成 的 代码 中 有 下 面 两 行内 容 : 


conf.setInputPath (new Path ("src") ) ; 
conf.setOutputPath (new Path ("out") ) ; 


这 两 个 内 容 是 配置 MapReduce Job 在 集群 上 的 输入 和 输出 路 径 ， 使 
用 的 API 和 Hadoop 中 的 API 不 匹配 。 因 此 需要 将 这 两 段 代码 改 成 : 


conf.setInputFormat (TextInputFormat.class) ; 
conf.setOutputFormat (TextOutputFormat.class) ; 
FileInputFormat.setInputPaths (conf, new Path ("In") ) ; 
FileOutputFormat.setOutputPath (conf, new Path ("Out") ) ; 


同时 还 需要 确认 Map/Reduce 工 程 下 已 经 创建 了 输入 文件 夹 In 且 没 
有 输出 文件 夹 Out。 在 上 自动 生成 的 代码 中 还 有 下 面 的 两 行 : 
conf.setMapperClass 
(org.apache.hadoop.mapred.lib.IdentityMapper.class) ; 


conf .setReducerClass 
(org.apache.hadoop.mapred.lib.IdentityReducer.class) ; 


它们 的 作用 是 配置 MapReduce Job 中 Map 过 程 的 执行 类 和 Reduce 过 
程 的 执行 类 ， 世 就 是 前 两 个 步 又 编写 的 两 个 Class。 所 以 将 这 两 行 修改 


成 下 面 的 内 容 : 


conf.setMapperClass (TestMapper.class) ; 
conf.setReducerClass (TestReducer.class) ; 


最 后 在 TestDriver 类 名 上 点 击 右键 依次 选择 Run As > Run on 
Hadoop， 并 选择 之 前 已 经 配置 的 Hadoop server, AiE finish, PEW 
可 以 看 到 Eclipse 开始 运行 TestDriver 了 “。 这 里 需要 注意 的 问题 有 两 个 : 


1) 如 果 任 务 执行 失 败 ， 出 错 提示 为 Java space heap。 这 主要 是 因 
为 Eclipse 执行 任务 时 内 存 不 够 ， 导 致 任务 失败 ， 解 决 的 办 法 是 选中 工 
程 并 点 击 Run > Run Configuretions， 点 击 出 现 窗口 中 间 的 Arguments 选 
项 卡 ， 在 VM arguments 中 写 入 : -Xms512m-Xmx512m， 然 后 点 击 
Apply， 接 下 来 就 可 以 正常 执行 程序 了 。 这 人 句 话 的 主要 作用 是 配置 这 个 
工程 可 以 使 用 的 内 存 最 小 值 与 最 大 值 都 是 512MB 。 


2) 如 何 调试 MapReduce 程 序 。 安 装 有 Hadoop Eclipse 插件 的 
Eclipse 可 以 调试 MapReduce 程 序 ， 调 试 的 办 法 就 是 正常 Java 程 序 在 
Eclipse 中 的 调试 办 法 ， 即 设置 断 点 ， 局 动 Debug， 按 步调 试 。 


18.3 Hadoop Streaming 的 介绍 和 使 用 


18.3.1 Hadoop Streaming 的 介绍 


Hadoop Streaming 是 Hadoop 的 一 个 工具 ， 它 帮助 用 户 创建 和 运行 
一 类 特殊 的 MapReduce 作 业 ， 这 些 特殊 的 MapReduce 作 业 是 由 一 些 可 
执行 文件 或 脚本 文件 充当 Mapper 或 Reducer。 也 就 是 说 Hadoop 
Streaming 人 允许 用 户 用 非 Java 的 编程 语言 编写 MapReduce 程 序 ， 然 后 
Streaming 用 STDIN (标准 输入 ) 和 STDOUT (标准 输出 ) 来 和 我 们 编 
写 的 Map 和 Reduce 进 行 数据 交换 ， 并 提交 给 Hadoop。 命 令 格式 如 下 : 


$HADOOP_HOME/bin/hadoop jar$HADOOP_HOME/hadoop-streaming.jar\ 
-input myInputDirs\ 

-output myOutputDir\ 

-mapper/bin/cat\ 

-reducer/bin/wc 


1.Streaming 的 工作 原理 


在 上 面 的 命令 里 ，Mapper 和 Reducer 都 是 可 执行 文件 ， 它 们 从 标准 
输入 按 行 读 入 数据， 并 把 计算 结果 发 送 给 标准 输出 。Streaming 工 具 会 
创建 一 个 MapReduce 作 业 ， 并 把 它 发 送 给 合适 的 集群 ， 同 时 监视 这 个 
作业 的 整个 执行 过 程 。 


如 果 一 个 可 执行 文件 被 用 于 Mapper， 则 在 其 初始 化 时 ， 每 一 个 
Mapper 任 务 会 把 这 个 可 执行 文件 作为 一 个 单独 的 进程 司 动 。 Mapper 任 
务 运行 时 ， 它 把 输入 切 分 成 行 ， 并 把 结果 提供 给 可 执行 文件 对 应 进程 
的 标准 输入 。 同 时 ， 它 会 收集 可 执行 文件 进程 标准 输出 的 内 容 ， 并 把 
收 到 的 每 一 行内 容 转化 成 key/value 对 ， 作 为 输出 。 默 认 情 况 下 ， 一 行 
中 第 一 个 tab 之 前 的 部 分 被 当做 key， 之 后 的 (不 包括 tab) 被 当做 
value ° 如果 没有 tab， 则 整 行内 容 被 当做 key 值 ，value 值 为 null。 具 体 
的 转化 策略 会 在 下 面 讨论 。 


如 果 一 个 可 执行 文件 被 用 于 Reducer， 每 个 Reducer 任 务 同 样 会 把 
这 个 可 执行 文件 作为 一 个 单独 的 进程 启动 。Reducer 任 务 运行 时 ， 它 把 
输入 切 分 成 行 ， 并 把 结果 提供 给 可 执行 文件 对 应 进程 的 标准 输入 。 同 
时 ， 它 会 收集 可 执行 文件 进程 标准 输出 的 内 容 ， 并 把 每 一 行内 容 转 化 
成 key/value 对 ， 作 为 输出 。 默 认 情 况 下 ， 一 行 中 第 一 个 tab 之 前 的 部 分 
被 当 作 key， 之 后 的 (不 包括 tab) 被 当做 value 。 


用 户 也 可 以 使 用 Java 类 作为 Mapper 或 Reducer。 本 最 初 给 出 的 命 


令 与 这 里 的 命令 等 价 : 


$HADOOP_HOME/bin/Hadoop jar$HADOOP_HOME/Hadoop-streaming.jar\ 
-input myInputDirs\ 

-output myOutputDir\ 

-mapper org.apache.hadoop.mapred.1lib.IdentityMapper\ 
-reducer/bin/wc 


用 户 可 以 设 定 stream.non.zero.exit.is.failure 的 值 为 tue 或 false， 从 而 
表明 streaming task 的 返回 值 非 零 时 是 Failure 还 是 Success。 默 认 情 况 
F, streaming task 返 回 非 零 时 表示 失败 。 


2. 将 文件 打包 到 提交 的 作业 中 


利用 Streaming 用 户 可 以 将 任何 可 执行 文件 指定 为 
Mapper/Reducer。 这些 可 执行 文件 可 以 事先 存放 在 集群 上 ， 也 可 以 用 - 
file 选 项 让 可 执行 文件 成 为 作业 的 一 部 分 ， 并 且 会 一 起 打包 提交 。 例 
如 : 


$HADOOP_HOME/bin/hadoop jar$HADOOP_HOME/hadoop-streaming.jar\ 
-input myInputDirs\ 

-output myOutputDir\ 

-mapper myPythonScript.py\ 

-reducer/bin/wec\ 

-file myPythonScript.py 


上 面 的 例子 描述 了 一 个 用 户 把 可 执行 Python 文 件 指定 为 Mapper ° 
其 中 的 选项 “-file myPythonScirpt.py” 使 可 执行 Python 文 件 作 为 作业 的 一 
部 分 被 上 传 到 集群 的 机 右上 。 


除了 可 执行 文件 外 ， 其 他 Mapper 或 Reducer 需 要 用 到 的 辅助 文件 
(比如 字典 、 配 置 文件 等 ) 也 可 以 用 这 种 方式 打包 上 传 。 例 如 : 


$HADOOP_HOME/bin/hadoop jar$HADOOP_HOME/hadoop-streaming.jar\ 
-input myInputDirs\ 

-output myOutputDir\ 

-mapper myPythonScript.py\ 


-reducer/bin/wc\ 
-file myPythonScript.py\ 
-file myDictionary.txt 


3.Streaming 选 项 与 用 法 
(1) 只 使 用 Mapper 的 作业 


有 时 候 只 需要 使 用 Map 函 数 处 理 输入 数据 。 这 时 只 须 把 
mapred.reduce.tasks 设 置 为 零 ，Mapreduce 框 架 就 不 会 创建 Reducer 任 


务 ，Mapper 任 务 的 输出 就 是 整个 作业 的 最 终 输 出 。 


为 了 做 到 向 下 兼容 ，Hadoop Streaming 也 文 持 “-reduce None” 选 


项 ， 它 与 “-jobconf mapred.reduce.tasks=0” 等 价 。 
(2) 为 作业 指定 其 他 属性 


和 其 他 普通 的 MapReduce 作 业 一 样 ， 用 户 可 以 为 Streaming 作 业 指 
定数 据 格 式 ， 命 令 如 下 : 

-inputformat JavaClassName 

-outputformat JavaClassName 


-partitioner JavaClassName 
-combiner JavaClassName 


如 采 不 指定 输入 格式 ， 程 序 会 默认 使 用 TextInputFormat。 因 为 
TextInputFormat 得 到 和 的 key 值 是 LongWritable 类 型 的 (key 值 并 不 是 输入 


文件 中 的 内 容 ， 而 是 value 偏 移 量 ) ， 所 以 key 会 被 丢弃 ， 只 会 把 value 
用 管道 方式 发 给 Mapper。 


另外 ， 用 户 提供 的 定义 输出 格式 的 类 需要 能 够 处 理 Text 类 型 的 
key/value 对 。 如 采 不 指定 输出 格式 ， 则 默认 会 使 用 TextOutputFormat 


(3) Hadoop Streaming 中 的 大 文件 和 档案 


任务 依据 -File 和 -Archive 选 项 在 集群 中 分 发 文件 和 档案 ， 选 项 的 参 
数 是 用 户 已 上 传 至 HDFS 的 文件 或 档案 的 URI。 这 些 文件 和 档案 在 不 同 
的 作业 间 缓 存 。 用户 可 以 通过 fs.defaultname 配 置 参数 的 值得 到 文件 所 
在 的 host 和 fs_port ° 


下 面 是 使 用 -cacheFile 选 项 的 例子 : 


-File hdfs: //host: fs_port/user/testfile.txt#testlink 
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下 的 符号 链接 的 名 字 。 这 个 任务 的 当前 工作 目 孙 下 有 一 个 “testlink" 符 
号 链接 ， 它 指向 testfile.txt 文 件 在 本 地 的 复制 位 置 。 如 果 有 多 个 文件 ， 
选项 可 以 写成 : 


-File hdfs: //host: fs_port/user/testfile1.txt#testlink1 
-File hdfs: //host: fs_port/user/testfile2.txt#testlink2 


-Archive 选 项 用 于 把 JAR 文 件 复 制 到 任务 当前 工作 目录 ， 并 自动 把 
JAR 文 件 解 压缩 。 例 如 : 


-Archive hdfs: //host: fs_port/user/testfile.jar#testlink3 


在 上 面 的 例子 中 ，testlink3 是 当前 工作 目录 下 的 符号 链接 ， 它 指向 
testfile.jar 解 压 后 的 目录 。 


下 面 是 使 用 -Archive 选 项 的 另 一 个 例子 。 其 中 ，input.txt 文 件 有 两 
行内 容 ， 分 别 是 两 个 文件 的 名 字 : testlink/cache.txt 和 
testlink/cache2.txt。“testlink” 是 指向 档案 目录 (JAR 文 件 解压 后 的 目 
K) 的 符号 链接 ， 这 个 目录 下 有 “cache.txt> 和 “cache2.txt" 两 个 文件 。 代 
码 如 下 所 示 : 


$HADOOP_HOME/bin/Hadoop jar$HADOOP_HOME/Hadoop-streaming.jar\ 
-input"/user/me/samples/cachefile/input.txt"\ 
-mapper"xargs cat"\ 

-reducer"cat"\ 

-output"/user/me/samples/cachefile/out"\ 

-Archive'hdfs: //Hadoop-nn1.example.com/user/me/samples/ 
cachefile/cchedir.jar#testlink'\ 

-D mapred.map.tasks=1\ 

-D mapred.reduce.tasks=1\ 

-D mapred. job.name="Experiment" 

$ls test_jar/ 

cache.txt cache2.txt 

$jar cvf cachedir.jar-C test_jar/. 

added manifest 

adding: cache.txt (in=30) (out=29) (deflated 3%) 

adding: cache2.txt (in=37) (out=35) (deflated 5%) 
$Hadoop dfs-put cachedir.jar samples/cachefile 

$Hadoop dfs-cat/user/me/samples/cachefile/input.txt 
testlink/cache.txt 

testlink/cache2.txt 


$cat test_jar/cache.txt 

This is just the cache string 

$cat test_jar/cache2.txt 

This is just the second cache string 

$Hadoop dfs-1ls/user/me/samples/cachefile/out 

Found 1 items 
/user/me/samples/cachefile/out/part-00000<r 3>69 
$Hadoop dfs-cat/user/me/samples/cachefile/out/part -00000 
This is just the cache string 

This is just the second cache string 


4. 为 作业 指定 附加 配置 参数 
用 户 可 以 使 用 “-jobconf<n>=<v>” 增 加 一 些 配 置 变 量 。 例 如 : 


$HADOOP_HOME/bin/Hadoop jar$HADOOP_HOME/Hadoop-streaming.jar\ 
-input myInputDirs\ 

-output myOutputDir\ 

-mapper org.apache.Hadoop.mapred.1lib.IdentityMapper\ 
-reducer/bin/wec\ 

-D mapred.reduce. tasks=2 


在 上 面 的 例子 中 ，-jobconf mapred.reduce.tasks=2 表 明 用 两 个 
Reducer 完 成 作业 。 


天 于 jobconf 参 数 的 更 多 细节 可 以 参考 Hadoop 安 装 包 中 的 Hadoop- 
default.html 文 件 。 


5. 其 他 选项 


Streaming 命 令 的 其 他 选项 如 表 18-3 所 示 。 


3% 18-3 Streaming 命令 选项 表 


ik ai ae) il Hi if 
-cluster name Ay 在 本 地 Hadoop PE — rake & ae FER EE fe 
-dfs host:port or local Ay x RETELA HDFS 配置 
-jt host:port or local al xe MEG EMERY JobTracker 配置 
-additionalconfspee specfile ay xe 用 一 个 类 似 和 二 Hadoop-site.xml! 的 XML 文 住 保存 所 有 配置 ， 了 众 而 不 需 


EEZ 
| me 
|e 
| 可 造 | 

| | 要 用 多 个 "-jobconf name=value" 业 型 的 造 藉 单独 为 每 个 配置 变 莫 赋值 
-cmdeny name=value 传递 环境 变量 给 streaming 命令 
-File fileNameURI 指定 一 个 土 传 到 HDES 的 文件 
-Archive fileNameURI 指定 一 个 上 传 到 HDFS 的 JAR 文件 ， 这 个 JAR 文件 会 被 自动 解压 缩 

到 当前 工作 目录 下 

-inputreader JavaClassName HT PH: 指定 一 个 record reader 类 《而 不 是 input format 类 ) 
| it 


-verbose aji 详细 输出 


使 用 -cluster<name> 实现 “本 地 ”Hadoop 和 一 个 或 多 个 远程 Hadoop 
集群 间 的 切换 。 默 认 情 况 下 ， 使 用 Hadoop-default,xml 和 Hadoop- 
site.xml。 当 使 用 -cluster< name> 选项 时 ， 会 使 用 


$HADOOP_HOME/conf/Hadoop- < name > .xml ° 


BAe 201 A] temp H Sk: 


-D dfs.data.dir=/tmp 


FAREM jE He tempH Se: 


-D mapred.local.dir=/tmp/local 
-D mapred.system.dir=/tmp/system 
-D mapred.temp.dir=/tmp/temp 


在 streaming 命 令 中 设置 环境 变量 : 


-cmdenv EXAMPLE_DIR=/home/example/dictionaries/ 


18.3.2 Hadoop Streaming 的 使 用 举例 


Hadoop Streaming 插 件 是 Hadoop 安 装 包 当中 的 一 个 JAR 文 件 ， 具 体 
位 置 在 ..…....\Hadoop-1.0.1\contrib\streaming 目 录 下 ， 所 以 Hadoop 
Streaming 插 件 是 直接 使 用 的 ， 只 需要 在 执行 Hadoop 程 序 时 输入 命令 
Hadoop Streaming 就 可 以 了 ， 无 须 安装 ， 在 编写 MapReduce 程 序 时 ， 只 
要 按照 整个 框架 要 求 并 根据 自己 的 需要 编写 出 符合 对 应 语言 格式 的 程 
序 ， 然 后 用 下 面 的 命令 格式 将 程序 提交 给 Hadoop 就 可 以 了 : 


$HADOOP_HOME/bin/hadoop jar$HADOOP_HOME/hadoop-streaming.jar\ 
-input myInputDirs\ 

-output myOutputDir\ 

-mapper/bin/cat\ 

-reducer/bin/wc 


需要 注意 的 是 ， 程 序 执行 所 需要 的 支持 文件 也 要 在 提交 程序 的 同 
时 提交 到 Hadoop 和 集群， 这 在 前 面 已 有 说 明 ， 不 再 长 述 。 下 面 以 一 个 用 
PHP 语 言 编 写 的 WordCount 使 用 Hadoop Streaming 提 交 的 程序 为 例 ， 来 
说 明 此 插件 使 用 方法 (Linux 系 统 下 需要 安 半 PHP 环境 ， 命 令 为 sudo 
apt-get install php5-client) 


程序 代码 举例 如 下 所 示 。 


(1) Mapper. php 


#! /usr/bin/php 

<?php 

$word2count=array () ; 

// 标 准 输入 STDIN (standard input) 

while ( ($line=fgets (STDIN) ) ! ==false) { 
// 移 除 小 写 与 空格 

$line=strtolower (trim ($line) ) ; 

// 切 词 

$words=preg_split ('/\W/', $line, ©, PREG_SPLIT_NO_EMPTY) ; 
// 将 字 +1 

foreach ($words as$word) { 

$word2count [$word ]+=1; 

} 

H 

// 结 果 写 到 STDOUT (standard output) 
foreach ($word2count as$word=>$count) { 
echo$word, chr (9) , $count, PHP_EOL; 

} 


?之 


(2) Reduce.php 


#! /usr/bin/php 

<?php 

$word2count=array () ; 

// 输 入 为 STDIN 

while ( ($line=fgets (STDIN) ) ! ==false) { 
/ ARE RAE 
$line=trim ($line) ; 

// 每 一 行 的 格式 为 〈 字 "tab" 数 字 ) ， 记 录 到 (Sword, $count) 
list ($word, $count) =explode (chr (9) , $line) ; 
// 转 换 格式 string- >int 

$count=intval ($count) ; 

// 求 总 的 频数 

if ($count>0) $word2count [$word]+=$count; 


} 

// 此 行 非 必 要 内 容 ， 但 可 让 output 排 列 更 完整 
ksort ($word2count) ; 

// 将 结果 写 到 STDOUT (standard output) 
foreach ($word2count as$word=>$count) { 
echo$word, chr (9) , $count, PHP_EOL; 

} 


?> 


执行 情况 如 下 : 


$bin/Hadoop jar contrib/streaming/Hadoop-0.20.2-streaming.jar\ 

-mapper/opt/Hadoop/mapper .php-reducer/opt/Hadoop/reducer . php- 
input lab4_input 

-output stream_out2 


下 面 来 查看 一 下 结 


$bin/Hadoop dfs-cat stream_out2/part-00000 


18.3.3 ”使 用 Hadoop Streaming è% LA a) el 


1. 如 何 处 理 多 个 文件 ， 其 中 每 个 文件 一 个 Map? 


需要 处 理 多 个 文件 时 ， 用 户 可 以 采用 多 种 途径 ， 这 里 以 在 集群 上 
压缩 (zipping) 多 个 文件 为 例 ， 用 户 可 以 使 用 以 下 几 种 方法 : 


(1) 使 用 Hadoop Streaming 和 用 户 编写 的 mapper 脚 本 程序 。 


先生 成 一 个 文件 ， 文 件 中 包含 所 有 要 压缩 的 文件 在 HDFS 上 的 完 
整 路 径 。 每 个 Map 任 务 获得 一 个 路 径 名 作为 输入 。 


然后 创建 一 个 Mapper 脚 本 程序 ， 实 现 如 下 功能 : 获得 文件 名 ， 把 
该 文件 复制 到 本 地 ， 压 缩 该 文件 并 把 它 发 到 期 户 的 输出 目录 中 。 


(2) 使 用 现 有 的 Hadoop 框 架 


Emain KAH ARIA bar: 


FileOutputFormat.setCompressOutput (conf, true) ; 

FileOutputFormat.setOutputCompressorClass (conf, 
org.apache.Hadoop.io.compress. 

GzipCodec.class) ; 

conf.setOutputFormat (NonSplitableTextInputFormat.class) ; 

conf.setNumReduceTasks (0) ; 


public void map (WritableComparable key, Writable value, 
OutputCollector output, 

Reporter reporter) throws IO0Exception{ 

output.collect ( (Text) value, null) ; 


} 
注意 输出 的 文件 名 和 原文 件 名 不 同 。 


2. 如 果 在 Shell 脚 本 里 设置 一 个 别名 ， 并 放 在 -mapper 之 后 ， 
Streaming 会 正常 运行 吗 ? 例如 ，alias cl='cut-fl', -mapper"cl"2jZS17 IE 


FAAS? 
BIA Be FCoE AA, (eee, PAN: 


$Hadoop dfs-cat samples/student_marks 

alice 50 

bruce 70 

charlie 80 

dan 75 

$c2='cut-f2'; SHADOOP_HOME/bin/Hadoop jar$HADOOP_HOME/Hadoop- 
streaming. jar\ 

-input/user/me/samples/student_marks 

-mapper\"$c2\"-reducer'cat' 

-output/user/me/samples/student_out 

-jobconf mapred.job.name='Experiment ' 

$Hadoop dfs-ls samples/student_out 

Found 1 items/user/me/samples/student_out/part-00000<r 3>16 

$Hadoop dfs-cat samples/student_out/part-00000 


3. 在 Streaming 作 业 中 用 -file 选 项 运行 一 个 分 布 式 的 超大 可 执行 文件 
(例如 ，3.6GB) 时 ， 如 果 得 到 错误 信息 “No space left on device” 如 何 


解决 ? 


由 于 配置 变量 stream.tmpdir 指 定 了 一 个 目录 ， 会 在 这 个 目录 下 进 
行 打 jar 包 的 操作 。stream.tmpdir 的 默认 值 是 /tmp， 用 户 需 要 将 这 个 值 设 
置 为 一 个 有 更 大 空间 的 目录 : 


-D stream.tmpdir=/export/bigspace/...... 


4. 如 何 设置 多 个 输入 目录 ? 
可 以 使 用 多 个 -input 先 项 设置 多 个 输入 目录 : 


Hadoop jar Hadoop-streaming.jar-input'/user/foo/dir1' - 
input'/user/foo/dir2' 


5. 如 何 生 成 gzip 格 式 的 输出 文件 ? 


除了 纯 文 本 格式 的 输出 ， 用 户 还 可 以 让 程序 生成 gzip 文 件 格式 的 
输出 ， 只 需 将 Streaming 作 业 中 的 选项 设置 为 “-D 
mapred.output.compress=true-jobconf 
mapred.output.compression.codec=org.apache. Hadoop.io.compress.GzipCo 


de” o 


6. 在 Streaming 中 如 何 目 定 义 inputoutput format? 


在 Hadoop 0.14 版 本 以 前 ， 不 支持 多 个 jar 文 件 。 所 以 当 指 定 自 定义 
的 类 时 ， 用 户 需要 把 它们 和 原 有 的 streaming jar 打 包 在 一 起 ， 并 用 这 个 
目 定义 的 jar 包 替换 默认 的 Hadoop streaming jar 包 。 在 0.14 版 本 以 后 ， 就 
无 须 打 包 在 一 起 ， 只 需要 正常 的 编译 运行 。 


7.Streaming 如 何 解 析 XML 文 档 ? 


用 户 可 以 使 用 StreamXmlRecordReader 来 解析 XML 文档 ， 如 下 所 


Hadoop jar Hadoop-streaming.jar-inputreader"StreamXmlRecord, 
begin=BEGIN_ 
STRING, end=END_STRING"...... 


Map 任 务 会 把 BEGIN_STRING 和 END_STRING 之 间 的 部 分 看 做 一 


条 记录 。 
8. 在 Streaming 应 用 程序 中 如 何 更 狐 计数 器 ? 


Streaming 进 程 能 够 使 用 stderr 发 出 计数 器 信息 。 应 该 把 reporter: 
counter: <group>, <counter>, <amount> 发 送 到 stderr 来 更 新 计 


Bar ° 


9. 如 何 更 新 Streaming 应 用 程序 的 状态 ? 


Streaming 进 程 能 够 使 用 stderr 发 出 状态 信息 。 可 把 reporter: 
status: < message > 发 送 到 stderr 来 设置 状态 。 


18.4 Hadoop Libhdfs 的 介绍 和 使 用 


18.4.1 Hadoop Libhdfs 的 介绍 


Libhdfs 是 一 个 基于 C 编 程 接口 的 为 Hadoop 分 布 式 文件 系统 开发 的 
JNI (Java Native Interface) ， 它 提供 了 一 个 C 语 言 接 口 以 结合 管理 DFS 
文件 和 文件 系统 。 并 且 它 会 在 ${HADOOP_HOME libhdfs/libhdfs.so 中 


预 编 译 ， 它 是 Hadoop 分 布 式 结构 中 的 一 部 分 。 


18.4.2 Hadoop LibhdfsAy ZÆ ML E. 


在 安装 Libhdfs 之 前 首先 需要 安装 Hadoop 的 分 布 式 文件 系统 
HDEFS。 当 用 户 有 一 个 正在 运行 的 工作 集 时 ， 进 入 srcc++/libhdfs 目 
录 ， 使 用 makefile 文 件 安装 Libhdfs。 一 旦 安装 Libhdfs 成 功 ， 用 户 可 以 
通过 它 连接 到 自己 的 程序 。 


18.4.3 Hadoop Libhdfs APII J? 


这 部 分 将 介绍 Libhdfs 提 供 的 各 种 用 来 管理 DFS 的 API。 我 们 按照 
管理 对 象 单个 文件 、 文 件 系 统 ) 对 API 进 行 了 分 类 。 


1.FileSystem API 


Libhdfs 不 仅 提 供 了 通用 文件 系统 管理 API， 比 如 创建 文件 夹 、 复 
制 文 件 、 移 动 文件 等 ， 还 提供 了 一 些 特殊 功能 的 API， 比 如 获取 备份 
文件 信息 等 。 


在 启动 时 应 该 在 任何 文件 或 文件 系统 操作 之 前 先 用 HDFSconnect 
API 将 Libhdfs 和 DFS 连 接 起 来 。 还 有 一 个 类 似 的 hdfsdisconnect API T 


连接 的 清除 。 
通用 操作 如 下 : 
hdfsCopy (也 适用 文件 系统 ) 
hdfsMove (也 适用 文件 系统 ) 
hdfsRename 


hdfsDelete 


Libhdfs 还 提供 了 在 DFS 上 管理 目录 的 API， 如 下 所 示 。 
hdfsCreateDirectory 

hdfsSetWorkingDirectory 

hdfsGetWorkingDirectory 
hdfsListDirectory/hdfsGetPathInfo/hdfsFreeFileInfo 

查询 flesystem 各 种 属性 的 API 如 下 。 

hdfsGetHosts 

hdfsGetDefaultBlockSize 

hdfsGetUsed/hdfsGetCapacity 

2.File APIs 


Libhdfs 提 供 了 一 些 类 似 于 POSIX (Portable Operating System 
Interface) 的 接口 来 实现 单个 文件 上 的 操作 ， 比 如 create、read/write、 
query 等 ， 如 下 所 示 。 


hdfsOpenFile/hdfsCloseFile 


hdfsRead/hdfsWrite 


hdfsTell/hdfsSeek 


hdfsFlush 


hdfsAvailable 


18.4.4 Hadoop Libhdfs 的 使 用 举例 


Libhdfs 可 以 用 在 POSIX 线 程 编 写 的 线程 应 用 程序 中 。 无 论 是 与 JNI 
的 全 局 还 是 局 部 引用 交互 ， 使 用 者 都 必须 显 式 地 调用 
hdfsConvertToGlobalRef/hdfsDeleteGlobalRef API ° 


下 面 是 一 个 Libhdfs 应 用 的 程序 ° 


#include"hdfs.h" 

int main (int argc, char**argv) { 

hdfsFS fs=hdfsConnect ("default", ©) ; 

const char*writePath="/tmp/testfile.txt"; 

hdfsFile writeFile=hdfsOpenFile (fs, writePath, 
O_WRONLY|O_CREAT, 0, 0, 0) ; 

if (! writeFile) { 

fprintf (stderr, "Failed to open%s for writing! \n", writePath) ; 

exit (-1) ; 


} 

char*buffer="Hello, World! "; 

tSize num_written_bytes=hdfswrite (fs, writeFile, (void*) 
buffer, strlen (buffer) +1) ; 

if (hdfsFlush (fs, writeFile) ) { 

fprintf (stderr, "Failed to'flush'%s\n", writePath) ; 

exit (-1) ; 


} 
hdfsCloseFile (fs, writeFile) ; 
} 


接 下 来 再 介绍 一 些 具体 情况 的 解决 办 法 。 


(1) 如 何 连接 到 库 


使 用 Libhdfs 源 文件 目录 
(${HADOOP_HOME}/src/c++/libhdfs/Makefile) 下 的 makefile 或 者 使 
用 下 面 的 命令 来 连接 库 : 
gcc above_sample.c-I$S{HADOOP_HOME}/src/c++/libhdfs - 


L${HADOOP_HOME}/libhdfs 
-lhdfs-o above_sample 


(2) CLASSPATH 配 置 问题 


使 用 Libhdfs 最 常见 的 问题 就 是 在 运行 一 个 使 用 了 Libhdfs 的 程序 时 
CLASSPATH 没 有 正确 配置 Libhdfs。 请 确保 在 每 个 运行 Hadoop 所 必需 
的 Hadoop jar 包 中 对 其 进行 了 正确 配置 。 另 外 ， 目 前 还 没有 使 用 程序 自 
动 生 成 CLASSPATH 的 方法 ， 但 有 一 个 很 好 的 办 法 瓯 是 引用 
${HADOOP_HOME} 和 ${HADOOP_HOMEMHlib 下 的 所 有 JAR 包 ， 并 上 且 
正确 配置 hdfs-site.xml 中 的 目录 。 


18.5” 本章 小 结 


本 章 介 绍 了 使 用 Hadoop 开 发 的 四 种 常用 插件 ， 分 别 是 Hadoop 
Studio、Hadoop Eclipse、Hadoop Streaming 和 Hadoop LibHdfs。Hadoop 
Studio 是 一 个 加 快 Hadoop 开 发 进程 的 可 视 化 开发 环境 。Hadoop Studio 
通过 降低 Hadoop 的 使 用 复杂 度 让 用 户 在 更 少 的 步骤 内 完成 更 多 的 事情 
来 提高 生产 率 。 用 户 可 以 通过 Hadoop Studio 强 大 的 GUI， 部 署 Hadoop 
任务 ， 并 监控 Hadoop 任 务 的 实时 信息 。Studio 的 优点 在 于 无 论 用 户 的 
开发 经 验 有 多 少 ， 它 都 能 从 设计 、 部 署 、 调 试 和 可 视 化 四 个 方面 简化 
用 户 的 工作 ， 提 高 工作 效率 。Hadoop Studio 全 面 强大 的 功能 使 其 使 用 
范围 其 广 。 


Hadoop Eclipse 插件 将 Hadoop 的 开发 环境 图 形 化 。 在 编译 和 安装 插 
件 、 配 置 Hadoop 的 相关 信息 之 后 ， 如 果 用 户 创建 Hadoop 程 序 ， 插 件 会 
自动 导入 Hadoop 编 程 接口 的 jar 文 件 ， 这 样 ， 用 户 就 可 以 在 Eclipse 的 
形 化 界面 中 编写 、 调 试 、 运 行 Hadoop 程 序 (单机 程序 和 分 布 式 程序 都 
可 以 ) 了 ， 也 可 以 在 其 中 查看 自己 程序 的 实时 状态 、 错 误 信 息 和 运行 
结果 了 ， 还 可 以 查看 、 管 理 HDFS 和 其 他 文件 。 总 的 来 说 ，Hadoop 
Eclipse 插件 安装 简单 ， 使 用 方便 ， 功 能 强大 ， 尤 其 是 在 Hadoop 编 程 方 
面 ， 是 Hadoop 入 门 和 Hadoop 编 程 必 不 可 少 的 工具 。 


Hadoop Streaming 是 Hadoop 的 一 个 工具 ， 它 帮助 用 户 创建 和 运行 
一 类 特殊 的 MapReduce 作 业 ， 这 些 特殊 的 MapReduce 作 业 是 由 一 些 可 
执行 文件 或 脚本 文件 充当 Mapper 或 者 Reducer 。 本 章 也 举例 说 明了 它 的 
EHATE 


Libhdfs 是 一 个 基于 C 编 程 接 口 、 为 Hadoop 的 分 布 式 文件 系统 开发 
的 JNI (Java Native Interface) ， 它 提供 了 一 个 C 语 言 接口 以 结合 管理 
DFS 文 件 和 文件 系统 。 它 在 ${fHADOOP_HOME Mlibhdfs/libhdfs.so 中 预 
编译 ， 是 Hadoop 分 布 式 结构 中 的 一 部 分 。 其 丰富 的 API 方 便 了 用 户 对 
于 HDFS 和 HDFS 文 件 的 管理 。 在 这 部 分 内 容 的 最 后 给 出 了 Libhdfs 使 用 
的 具体 例子 ， 并 给 出 了 一 些 常见 问题 的 解决 办 法 。 


本 间 详 细 介 绍 了 Hadoop 开 发 常用 的 四 种 插件 ， 从 安装 步 又 到 使 用 
方法 ， 再 到 常见 问题 的 解决 方法 ， 项 望 能 帮助 大 家 提高 使 用 和 开发 
HadoopH 3% ° 


第 19 章 ”企业 应 用 实例 
本 章 内 容 
Hadoop Yahoo! 的 应 用 
Hadoop 在 eBay 的 应 用 
Hadoop 在 百度 的 应 用 
即刻 搜索 中 的 Hadoop 
Facebook 中 的 Hadoop 和 HBase 


本 章 小 结 


当今 世界 ， 随 着 企业 的 数据 量 迅 速 增长 ， 存 储 和 处理 大 规模 数据 
已 成 为 和 人们 的 迫切 需求 。Hadoop 作 为 开源 的 云 计 算 平 台 ， 已 引起 了 学 
术 界 和 企业 界 的 普 过 兴趣 。 使 用 它 ， 可 以 在 不 了 解 分 布 式 故 层 细 市 的 
情况 下 开发 分 布 式 应 用 程序 ， 并 处 理 大 规模 数据 。 由 于 Hadoop 性 能 优 
秀 ， 它 已 在 一 些 公司 得 到 了 很 好 地 推广 。 


本 书 详细 讲解 了 Hadoop 中 HDFS 和 MapReduce 的 相关 知识 ， 并 简 
单 介 绍 了 Hadoop 相 关 的 Apache 项 目 。 本 章 将 从 企业 应 用 实例 方面 为 大 
家 讲解 Hadoop 在 大 型 应 用 中 扮演 了 什么 角色 ， 如 何 搭建 基于 Hadoop 的 
大 型 应 用 框架 以 及 如 何在 系统 开发 中 应 用 Hadoop 设 计 思 想 。 下 面 我 们 
将 选取 具有 代表 性 的 Hadoop 应 用 案例 进行 分 析 ， 让 大 家 了 解 Hadoop 在 
企业 界 的 应 用 情况 。 


19.1 Hadoop 在 Yahoo! 的 应 用 


关于 Hadoop 技 术 的 研究 和 应 用 ，Yahoo! 都 处 于 领先 地 位 ， 它 将 
Hadoop 应 用 于 目 己 的 各 种 产品 中 ， 包 括 数 据 分 机、 内 容 优化 、 反 垃圾 
邮件 系统 、 广 告 的 优化 选择 、 大 数据 处 理 和 ETL 等 ;同样 ， 在 用 户 兴 
趣 预测 、 搜 索 排名 、 广 告 定 位 等 方面 也 得 到 了 充分 地 应 用 。 


在 Yahoo! 主页 个 性 化 方面 ， 实 时 服务 系统 通过 Apache 从 数据 库 
中 读 取 user 到 interest 的 罗 射 ， 并 且 每 隔 5 分 钟 生 产 环境 中 的 Hadoop 集 群 
台 会 基于 最 狐 数据 重新 排列 内 容 ， 每 阳 7 分 钟 则 在 页 面 上 更 狐 内 容 。 


在 邮箱 方面 ，Yahoo! 利用 Hadoop 和 集群 根据 垃圾 邮件 模式 为 邮件 
计 分 ， 并 且 每 隔 儿 个 小 时 就 在 集群 上 改进 反 垃圾 邮件 模型 集群 系统 
每 天 还 推动 50 亿 次 的 邮件 投递 。 


目前 Hadoop 最 大 的 生产 应 用 是 Yahoo! 的 Search Webmap 应 用 ， 它 
运行 在 超过 10 000 台 机 器 的 Linux 系 统 集 群 里 ，Yahoo! 的 网 页 搜索 查 
询 使 用 的 就 是 它 产 生 的 数据 。Webmap 的 构建 步骤 如 下 : 首先 进行 网 页 
的 聆 到 ， 同 时 产生 包含 所 有 已 知 网 页 和 互联 网 站 点 的 数据 库 ， 以 及 一 
个 关于 所 有 页 面 及 站 点 的 海量 数据 组 ;然后 这 些 数据 传输 给 Yahoo ! 
搜索 中 心 执行 排序 算法 。 在 整个 过 程 中 ， 索 引 中 页 面 间 的 链接 数量 将 
会 达到 1TB， 经 过 压缩 的 数据 产 出 量 会 达到 300TB， 运 行 一 个 


MapReduce 任 务 就 需 使 用 超过 10 000 的 内 核 ， 而 在 生产 环境 中 使 用 数 
据 的 存储 量 超过 5PB。 


Yahoo! 在 Hadoop 中 同时 使 用 了 Hive 和 Pig， 在 许多 人 看 来 ，Hive 
和 Pig 大 体 相 似 而 且 Pig Latin 与 SQL 也 十 分 相似 。 那 么 Yahool! 为 什么 要 
同时 使 用 这 些 技 术 呢 ?主要 是 因为 Yahoo! 的 研究 人 员 查 看 了 它们 的 
工作 负载 并 分 析 了 应 用 案例 后 认为 不 同 的 情况 下 需要 使 用 不 同 的 工 
Fo 


AN 


先 了 解 一 下 大 规模 数据 的 使 用 和 处 理 背 景 。 大 规模 的 数据 处 理 通 
党 分 为 三 个 不 同 的 任务 :数据 收集 、 数 据 准备 和 数据 表示 ， 这 里 并 不 
打算 介绍 数据 收集 阶段 ， 因 为 Pig 和 Hive 主 要 用 于 数据 准备 和 数据 表示 


阶段 。 


数据 准备 阶段 通常 被 认为 是 提取 、 转 换 和 加 载 (Extract Transform 
Load, ETL) 数据 的 阶段 ， 或 者 认为 这 个 阶段 是 数据 工厂 。 这 里 的 数据 
工厂 只 是 一 个 比喻 ， 现 实生 活 中 的 工厂 接受 原材料 后 会 输出 客户 所 需 
的 产品 ， 而 数据 工厂 与 之 相似 ， 它 在 输入 原始 数据 后 ， 输 出 可 供 客户 
使 用 的 数据 集 。 这 个 阶段 需要 装载 和 清洗 原始 数据 ， 并 让 它 遵 守 特 定 
的 数据 模型 ， 还 要 尽 可 能 地 让 它 与 其 他 数据 产 结 合 等。 这 一 阶段 的 客 
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数据 表示 阶段 一 般 指 的 都 是 数据 仓库 ， 数 据 仓 库存 储 了 客户 所 需 
要 的 产品 ， 客 户 会 根据 需要 选取 合适 的 产品 。 这 一 阶段 的 客户 可 能 是 
系统 的 数据 工程 师 、 分 析 师 或 决策 者 。 


根据 每 个 阶段 负载 和 用 户 情况 的 不 同 ，Yahool! 在 不 同 的 阶段 使 
用 不 同 的 工具 。 结 合 了 诸如 Oozie 等 工作 流 系统 的 Pig 特 别 适 合 于 数据 
工厂 ， 而 Hive 则 适合 于 数据 仓库 。 下 面 将 分 别 介 绍 数 据 工厂 和 数据 仓 
fiz o 


在 Yahoo! 的 数据 工厂 存在 三 种 不 同 的 工作 用 途 : Tike > AM 
处 理 和 科学 研究 。 


经 典 的 数据 流水 线 包 括 数据 反 饶 、 清 洗 和 转换 。 一 个 单 见 例子 束 
征 Yahool! 的 网 络 服务 器 日 志 ， 这 些 日 志 需 要 进行 清洗 以 去 除 不 必要 
的 信息 ， 数 据 转换 则 是 要 找到 点 击 之 后 所 转 到 的 页 面 。Pig 征 分 析 大 规 
模 数据 集 的 平台 ， 它 建立 在 Hadoop 之 上 并 提供 了 民 好 的 编程 环境 、 优 
化 条 件 和 可 扩展 的 性 能 。Pig Latin 是 关系 型 数据 流 语言 ， 并 且 是 Pig 核 
心 的 一 部 分 ， 基 于 以 下 的 原因 ，Pig Latin 相 比 SQL 而 言 更 适合 构建 数 
据 流 。 首 先 ，Pig Latin 是 面 问 过程 的 ， 并 且 人 允许 流水 线 开 发 者 目 定义 
流水 线 中 检查 点 的 位 置 ， 其 次 ，Pig Latin 人 允许 开发 者 直接 选择 特定 的 
操作 实现 方式 而 不 是 依赖 于 优化 器 ， 男 外 ，Pig Latin 文 持 流 水 线 的 分 
L, 并 且 人 允许 流水 线 开发 者 在 数据 流水 线 的 任何 地 方 插 入 目 己 的 代 


码 。Pig 和 诸如 Oozie 等 的 工作 流 工具 一 起 使 用 来 创建 流水 线 ， 一 天 可 
以 运行 数 以 万 计 的 Pig 作 业 。 


迭代 处 理 也 是 需要 Pig 的 ， 在 这 种 情况 下 通 营 需要 维护 一 个 大 规模 
的 数据 集 。 数 据 集 上 的 典型 处 理 包 括 加 入 一 小 片 数 据 后 就 会 改变 大 规 
模 数 据 集 的 状态 。 如 考虑 一 个 数据 集 ， 它 存储 了 Yahoo! 新 闻 中 现 有 
的 所 有 新 闻 。 我 们 可 以 把 它 想 象 成 一 幅 巨 大 的 图 ， 每 个 新 闻 束 是 一 个 
节 态 ， 新 闻 市 点 奎 有 边 相 连 说 明 这 些 新 闻 指 的 钙 同 一 件 事件 。 每 阳 几 
分 钟 束 会 有 新 的 新 闻 加 入 进来 ， 这 些 工具 需要 将 这 些 新 闻 市 点 加 到 图 
中 ， 并 找到 相似 的 新 闻 节 点 用 边 连 毛 起来， 还 要 删除 被 新 入 点 覆盖 的 
旧 市 点 。 这 和 标准 流水 线 不 同 ， 它 不 断 有 小 变化 ， 这 残 需要 使 用 增长 
处 理 模 型 在 合理 的 时 间 苑 围 内 处 理 这 些 数 据 。 例 如 ， 所 有 的 新 节点 加 
入 到 图 中 后 ， 又 有 一 批 新 的 新 闻 市 点 到 达 ， 在 整个 图 上 重新 执行 连接 
操作 是 不 现实 的 ， 这 也 许 会 花费 数 个 小 时 。 相 反 ， 在 新 增加 的 节点 上 
执行 连接 操作 并 使 用 全 连接 (full join) 的 结果 是 可 行 的 ， 而 且 这 个 过 
程 只 需要 伦 费 几 分 钟 时 间 。 标 准 的 数据 库 操 作 可 以 使 用 Pig Latin 通 过 
上 述 方 式 实现 ， 这 时 Pig 束 会 得 到 很 好 地 应 用 。 


Yahoo! 有 许多 的 科研 人 员 ， 他 们 和 需要 网 格 工 具 处 理 千 万 亿 大 小 
的 数据 ， 还 有 许多 全 究 人 员 项 望 快速 地 写 出 脚本 来 测试 目 己 的 理论 或 
获得 更 深 的 理解 。 但 是 在 数据 工厂 中， 数据 不 古 以 一 种 友好 的 、 标 准 
的 方式 呈现 的 ， 这 时 Pig 束 可 以 大 显 喘 手 了 ， 因 为 它 可 以 处 理 未 知 模式 


的 数据 ， 还 有 半 结 构 化 和 非 结 构 化 的 数据 。Pig 与 streaming 相 结合 ， 使 
得 研究 者 在 小 规模 数据 集 上 测试 的 Per 和 Python 脚本 可 以 很 方便 地 在 大 
规模 数据 集 上 运行 。 


在 数据 仓库 处 理 阶 段 有 两 个 主要 的 应 用 : 商业 智能 分 析 和 特定 查 
询 (Ad-hoc query) 。 在 第 一 种 情况 下 ， 用 户 将 数据 连接 到 商业 智能 
(BI) 工具 (如 MicroStrategy) 上 来 产生 报告 或 深入 地 分 析 。 第 二 种 
情况 下 用 户 执行 数据 分 析 师 或 决策 者 的 特定 查询 。 这 两 种 情况 下 ， 关 
系 模型 和 SQL 都 很 好 用 。 事 实 上， 数据 仓库 已 经 成 为 SQL 使 用 的 核 
心 ， 它 支持 多 种 查询 并 具有 分 析 师 所 需 的 工具 ，Hive 作 为 Hadoop 的 子 
项 目 为 其 提供 了 SQL 接口 和 关系 模型 ， 现 在 Hive 团 队 正 开 始 将 Hive 与 
BI 工具 通过 接口 (如 ODBC) 结合 起 来 使 用 。 


Pig 在 Yahoo! 得 到 了 广泛 应 用 ， 这 使 得 数据 工厂 的 数据 被 移植 到 
Hadoop 上 运行 成 为 可 能 。 随 着 Hive 的 深入 使 用 ，Yahoo! 打算 将 数据 
仓库 移植 到 Hadoop 上 。 在 同一 系统 上 部 团 数 据 工厂 和 数据 仓库 将 会 降 
低 数据 加 载 到 仓库 的 时 间 ， 这 也 使 得 共 至 工厂 和 仓库 之 间 的 数据 、 管 
理工 具 、 硬 件 等 成 为 可 能 。Yahoo! 在 Hadoop 上 同时 使 用 多 种 工具 使 
Hadoop 能 够 执行 更 多 的 数据 处 理 。 


19.2 ”Hadoop 在 eBay 的 应 用 


eBay 是 全 球 知名 的 个 人 和 企业 销售 商品 和 提供 服务 的 在 线 交 易 平 
台 ， 是 互联 网 上 最 受 欢 迎 的 购物 网 站 之 一 。 在 eBay 上 存储 着 上 亿 种 商 
品 的 信息 ， 而 且 每 天 有 数 百 万 种 的 新 商品 增加 ， 因 此 需要 用 云 系统 
存储 和 处 理 PB 级 别 的 数据 ， 而 Hadoop 有 是 个 很 好 的 选择 。 


Hadoop 是 建立 在 商业 便 件 上 的 容错 、 可 扩展 、 分 布 式 的 云 计算 框 
架 ，eBay 利 用 Hadoop 建 立 了 一 个 大 规模 的 集群 系统 一 Athena， 它 被 分 
为 五 层 (如 图 19-1 所 示 ) ， 下 面 从 最 底层 向 上 开始 介绍 : 


1) 核心 层 ， 包 括 Hadoop 运 行 时 环境 、 一 些 通 用 设施 和 HDFS， 其 
中 文件 系统 为 读 写 大 块 数据 而 做 了 一 些 优化 ， 如 将 块 的 大 小 由 128MB 
改 为 256MB ° 


2) MapReduce 层 ， 为 开发 和 执行 任务 提供 API 和 控件 。 


3) 数据 获取 层 ， 现 在 数据 获取 层 的 主要 框架 是 HBase、Pig 和 


Hive: 


HBase 是 根据 Google BigTable 开 发 的 按 列 存储 的 多 维 空间 数据 库 ， 
通过 维护 数据 的 划分 和 范围 提供 有 序 的 数据 ， 其 数据 储存 在 HDFS 
E 
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19-1 ”Athena 的 层次 
聚集 、 连 接 、 分 组 


Za 


Pig (Latin) PERIE ` Sit ` FR > GERM ` 
开发 者 使 用 Pig 建 立 数据 管道 和 数据 工厂 。 


等 操作 的 面 癌 过程 的 语言 
Hive 是 用 于 建立 数据 仓库 的 使 用 SQL 语法 的 声明 性 语言 。 对 于 开 


发 者 、 产 品 经 理 和 分 析 师 来 说 ，SQL 接 口 使 得 Hive 成 为 很 好 的 选择 。 
4) 工具 、 加 载 库 层 ，UC4 是 eBay 从 多 个 数据 源 目 动 加 载 数据 的 企 


` 机 器 学 习 库 (Mahout) 


业 级 调度 程序 。 加 载 库 有 : 统计 库 (R) 
数学 相关 库 (Hama) 和 eBay 自己 开发 的 用 于 解析 网 络 日 志 的 库 


(Mobius) 。 
g 告 库 ，Ganglia 是 分 布 式 集群 的 监视 系统 ，Nagios 则 用 


5) 监视 和 警告 
来 警告 一 些 天 键 事 件 如 服务 絮 不 可 达 、 人 硬盘 已 满 等 


eBay 的 企业 服务 器 运行 着 64 位 的 RedHat Linux: 


责 管理 HDFS 的 主 服务 器 ; 


NameNode 是 负 


JobTracker 负 责任 务 的 协调 ; 


HBaseMaster 人 负责 存储 HBase 存 储 的 根 信息 ， 并 且 方 便 与 数据 块 或 
存 取 区 域 进行 协调 ; 


ZooKeeper 是 保证 HBase 一 人 致 性 的 分 布 式 锁 协 调 器 。 


用 于 存储 和 计算 的 节点 是 1U 大 小 的 运行 Cent OS 的 机 器 ， 每 个 机 
右 拥 有 两 个 四 核 处 理 絮 和 2TB 大 小 的 存储 空间 ， 每 38~42 个 方 点 单元 
为 一 个 rack， 这 组 建成 高 密度 网 格 。 有 关 网 络 方面 ， 顶 层 rack 交 换 机 到 
"TAHA TE BE 79 1Gbps, rack 交 换 机 到 核心 交换 机 的 带宽 为 40Gpbs ° 


这 个 集群 为 eBay 内 多 个 团队 共同 使 用 的 ， 包 括 产 品 和 一 次 性 任 
务 。 这 里 使 用 Hadoop 公 平 调度 器 (Fair Scheduler) 来 管理 分 配 、 定 义 
团队 的 任务 池 、 分 配 权 限 、 限 制 每 个 用 户 和 组 的 并 行 任务 、 设 置 优先 
权 期 限 和 延迟 调度 。 


数据 流 的 具体 处 理 过 程 如 图 19-2 所 示 ， 系 统 每 天 需要 处 理 8~- 
10TB 的 新 数据 ， 而 Hadoop 主 要 用 于 : 


基于 机 器 学 习 的 排序 。 使 用 Hadoop 计 算 需 要 考虑 多 个 因素 (如 价 
格 、 列 表格 式 、 卖 家 记录 、 相 关 性 ) 的 排序 钞 数 ， 并 需要 添加 新 因素 
来 验证 假设 的 扩展 功能 ， 以 增强 eBay 物 品 搜 索 的 相关 性 。 


对 物品 描述 的 数据 挖掘 。 在 完全 无 人 监管 的 方式 下 使 用 数据 挖掘 
和 机 顺 学 习 技 术 ， 将 物品 措 述 请 单 转化 为 与 物品 相关 的 键 / 值 对 ， 来 扩 


19-2 ”数据 流 


eBay 的 研究 人 员 在 系统 构建 和 使 用 过 程 中 遇 到 的 挑战 以 及 一 些 初 
步 计划 有 以 下 几 个 方面 : 


可 扩展 性 : 当前 主 系统 NameNode 拥 有 扩展 的 功能 ， 随 着 集群 的 
文件 系统 不 断 增 长 ， 需 要 存储 大 量 的 元 数据 ， 所 以 内 存 占 有 量 也 在 不 
断 增 长 。 如 果 是 1PB 的 存储 量 则 需要 将 近 1GB 的 内 存量 ， 可 能 的 解决 
方案 是 使 用 等 级 结构 的 命名 空间 划分 ， 或 者 使 用 HBase 和 ZooKeeper 联 
合 对 元 数据 进行 管理 。 


有 效 性 : NameNode 的 有 效 性 对 产品 的 工作 负载 很 重要 ， 开 源 社 
区 提出 了 一 些 备用 选择 ， 如 使 用 检查 点 和 备份 和 点、 从 Secondary 
NameNode 中 转移 到 AvatarT 点 、 日 志 元 数据 复制 技术 等 。eBay 人 研究 人 
员 根 据 这 些 方 法 建立 了 目 己 的 产品 集群 。 


数据 挖掘 ; 在 存储 非 结构 化 数据 的 系统 上 建立 文 持 数 据 管理 、 数 
据 挖 气 和 模式 管理 的 系统 。 痢 的 计划 提议 将 Hive 的 元 数据 和 Owl 添 加 


到 新 系统 中 ， 并 称 为 Howl。eBay 人 研究 人 员 努 力 将 这 个 系统 联系 到 分 析 
平台 上 去 ， 这 样 用 户 可 以 很 容易 地 在 不 同 的 数据 系统 中 挖掘 数据 。 


数据 移动 : eBay 研究 人 员 考 虑 发 布 数据 转移 工具 ， 这 个 工具 可 以 
文 持 在 不 同 的 子 系统 如 数据 仓库 和 HDFS 之 间 进 行 数据 的 复制 。 


策略 : 通过 配额 实现 较 好 的 归档 、 备 份 等 策略 (Hadoop 现 有 版 本 
的 配额 需要 改进 ) 。eBay 的 研究 人 员 基 于 工作 负载 和 集群 的 特点 对 不 
同 的 集群 确定 配额 。 


标准 : eBay 研究 人 员 开 发 健壮 的 工具 来 为 数据 来 源 、 消 耗 情况 、 
预算 情况 、 使 用 情况 等 进行 度量 。 
同时 eBay 正在 改变 收集 、 转 换 、 使 用 数据 的 方式 ， 以 提供 更 好 的 


商业 智能 。 


19.3 ”Hadoop 在 百度 的 应 用 


百度 作为 全 球 最 大 的 中 文 搜索 引擎 公司 ， 提 供 基于 搜索 引擎 的 各 
种 产品 ， 包 括 以 网 络 搜索 为 主 的 功能 性 搜索 ， 以 贴吧 为 主 的 社区 搜 
索 ， 针 对 区 域 、 行 业 的 垂直 搜索 ，MP3 音 乐 搜索 ， 以 及 百科 等 ， 几 平 
覆盖 了 中 文 网 络 世 界 中 所 有 的 搜索 需求 。 


百度 对 海量 数据 处 理 的 要 求 是 比较 高 的 ， 要 在 线 下 对 数据 进行 分 
析 ， 还 要 在 规定 的 时 间 内 处 理 完 并 反馈 到 平台 上 。 百度 在 互联 网 领域 
的 平台 需求 如 图 19-3 所 示 ， 这 些 需 求 需要 通过 性 能 较 好 的 云 平台 进行 
处 理 了 并 实现 ，Hadoop 束 是 很 好 的 选择 。 在 百度 ，Hadoop 主 要 应 用 于 
以 下 几 个 方面 : 


日 志 的 存储 和 统计 ; 

网 页 数据 的 分 析 和 挖掘; 

商业 分 析 ， 如 用 户 的 行为 、 广 告 关注 度 等 ; 

在 线 数 据 的 反馈 ， 及 时 得 到 在 线 广告 的 点 击 情况 ; 


FUP PAAR, 分析 用 户 的 推荐 度 及 用 户 之 间 的 关联 度 。 


MapReduce 主 要 是 一 种 思想 ， 并 不 能 解决 领域 内 与 计算 有 关 的 所 
有 问题 ， 百 度 的 研究 人 员 认 为 比较 好 的 模型 应 该 如 图 19-4 所 示 ，HDFS 
实现 共享 存储 ， 一 些 计 算 使 用 MapReduce 解 决 ， 一 些 计算 使 用 MPI 解 
决 ， 而 还 有 一 些 计 算 需 要 通过 两 者 来 共同 处 理 。 因 为 MapReduce 适 合 
处 理 数 据 很 大 且 适 合 划分 的 数据 ， 所 以 在 处 理 这 类 数据 时 融 可 以 用 
MapReduce 做 一 些 过 站， 得 到 基本 的 向 量 矩 阵 ， 然 后 通过 MPI 进 一 步 
处 理 后 并 返回 结 末 ， 只 有 整合 技术 才能 更 好 地 解决 问题 。 


百度 现在 拥有 三 个 Hadoop 和 集群， 总 规模 在 700 台 机 器 左右 ， 其 中 
有 100 多 台新 机 器 和 600 多 台 要 淘汰 的 机 器 (它们 的 计算 能 力 相当 于 200 
多 台新 机 器 ) ， 不 过 其 规模 还 在 不 断 地 扩大 中 。 现 在 每 天 运行 的 
MapReduce 任 务 大 约 在 3000 个 左右 ， 处 理 数据 约 120TB/ 天 。 


分 布 式 存储 平 台 


图 19-3 互联 网 领域 的 平台 需求 


19-4 计算 模型 


百度 为 了 更 好 地 用 Hadoop 进 行 数 据 处 理 ， 在 以 下 几 个 方面 做 了 改 
进 和 调整 : 


(1) 调整 MapReduce 策 略 
限制 作业 处 于 运行 状态 的 任务 数 ; 


调整 预测 执行 策略 ， 控 制 预测 执行 量 ， 一 些 任务 不 需要 预测 执 


根据 节点 内 存 状况 进行 调度 ; 
平衡 中 间 结 果 输 出 ， 通 过 压缩 处 理 减 少 JO 负 担 。 
(2) 改进 HDFS 的 效率 和 功能 


权限 控制 ， 在 PB 级 数据 量 的 集群 上 数据 应 该 是 共 译 的 ， 这 样 分 析 
起 来 比较 容易 ， 但 是 需要 对 权限 进行 限制 ; 


La KAT RIL, IE, Phar Raa a EA to ah 
可 以 正常 使 用 ; 


修改 DFSClient 选 取 块 副本 位 置 的 策略 ， 增 加 功能 使 DFSClient 选 
取 块 时 跳 过 出 错 的 DataNode:; 


解决 VFS (Virtual File System) 的 POSIX (Portable Operating 


System Interface of Unix) 兼容 性 问题 。 
(3) 修改 Speculative 的 执行 策略 


采用 速率 倒数 殖 代 速率 ， 防 止 数据 分 布 不 均 时 经 闻 不 能 局 动 预测 
执行 情况 的 发 生 ;， 增加 任务 时 必须 达到 某 个 百分比 后 才能 局 动 预测 执 
行 的 限制 ， 解 决 Reduce 运 行 等 竺 Map 数据 的 时 间 问 题 ; 


只 有 一 个 Map 或 Reduce 时 ， 可 以 直接 启动 预测 执行 。 
(4) 对 资源 使 用 控制 


对 应 用 物理 内 存 的 控制 。 如 有 果 内 存 使 用 过 多 会 导致 操作 系统 跳 过 
一 些 任 务 ， 百 度 通 过 修改 Linux 内 核对 进程 使 用 的 物理 内 存 进行 独立 的 
限制 ， 超 过 靖 值 可 以 终止 进程 。 


分 组 调度 计算 资源 ， 实 现存 储 共 圣 、 计 算 独 立 ， 在 Hadoop 中 运行 
的 进程 是 不 可 抢占 的 。 


在 大 块 文件 系统 中 ，X86 平 台 下 一 个 页 的 大 小 是 4K B。 如 果 页 较 
小 ， 管 理 的 数据 就 


会 很 多 ， 会 增加 数据 操作 代价 并 影响 计算 效率 ， 因 此 需要 提高 页 
的 大 小 。 百 度 在 使 用 Hadoop 时 也 遇 到 了 一 些 问题 ， 主 要 有 : 


MapReduce 的 效率 问题 : 比如 ， 如 何在 shuffle 效 率 方面 减少 MO 次 
数 以 提高 并 行 效 率 ， 如 何在 排序 效率 方面 设置 排序 为 可 配置 的 ， 因 为 
排序 过 程 会 浪费 很 多 的 计算 资源 ， 而 一 些 情况 下 是 不 需要 排序 的 。 


HDFS 的 效率 和 可 知性 问题 : 如 何 提高 随机 访问 效率 ， 以 及 数据 
写 入 的 实时 性 问题 ， 如 果 Hadoop 每 写 一 条 日 志 束 在 HDFS 上 储存 一 
次 ， 效 率 会 很 低 。 


内 存 使 用 的 问题 : Reducer 端 的 shuffle 会 频繁 地 使 用 内 存 ， 这 里 采 
用 类 似 Linux 的 Buddy System 来 解决 ， 保 证 Hadoop 用 最 小 的 开销 达到 最 
高 的 利用 率 ; 当 Java 进 程 内 容 使 用 内 存 较 多 时 ， 可 以 调整 垃圾 回收 
(GC) 策略 ， 有 时 存在 大 量 的 内 存 复 制 现象 ， 这 会 消耗 大 量 CPU 资 
源 ， 同 时 还 会 导致 内 存 使 用 峰值 极 高 ， 这 时 需要 减少 内 存 的 复制 。 


作业 调度 的 问题 : 如 何 限制 任务 的 Map 和 Reduce 计 算 单元 的 数 
量 ， 以 确保 重要 计算 可 以 有 足够 的 计算 单元 ， 如 何 对 TaskTracker 进 行 
分 组 控制 ， 以 限制 作业 执行 的 机 器 ， 同 时 还 可 以 在 用 户 拓 区 任务 时 确 
定 执 行 的 分 组 并 对 分 组 进行 认证 。 


性 能 提升 的 问题 : UserLogs cleanup 在 每 次 Task 结 束 的 时 候 都 要 查 
看 一 下 日 志 决 定 是 否 清除 ， 这 会 占用 一 定 的 任务 资源 ， 可 以 通过 将 清 
理 线程 从 Java 子 进程 移 到 TaskTracker 来 解决 ，Java 子 进程 会 对 文本 行进 
行 切割 而 Map 和 Reduce 进 程 则 会 重 狐 切割 ， 这 将 造成 重复 处 理 ， 这 时 
需要 关 掉 Java 进 程 的 切 制 功能 ， 在 排序 的 时 候 也 可 以 实现 并 行 排序 提 
升 性 能 ， 实 现 对 数据 的 异步 读 写 也 可 以 提升 性 能 。 


健壮 性 的 问题 : 需要 对 Mapper 和 Reducer 程 序 的 内 存 消耗 进行 限 
制 ， 这 就 要 修改 Linux 内 核 ， 增 加 其 限制 进程 的 物理 内 存 的 功能 ， 也 可 
以 通过 多 个 Map 程 序 共 享 一 块 内 存 ， 以 一 定 的 代价 减少 对 物理 内 存 的 
使 用 ， 还 可 以 将 DataNode 和 TaskTracker 的 UGI 配 置 为 普通 用 户 并 设置 
账号 密码 ; 或 者 让 DataNode 和 TaskTracker 分 账号 启动 ， 确 保 HDFS 数 
据 的 安全 性 ， 防 止 Tracker 操 作 DataNode 中 的 内 容 ; 在 不 能 保证 用 户 的 
每 个 程序 都 很 健壮 的 情况 下 ， 有 时 需要 将 进程 终止 挥 ， 但 要 保证 父 进 
程 终止 后 子 进程 也 被 终止 。 


Streaming 局 限 性 的 问题 : 比如 ， 只 能 处 理 文 本 数据 ，Mapper 和 
Reducer 按 照 文 本 行 的 协议 通信 ， 无 法 对 二 进 制 的 数据 进行 简单 处 理 。 
为 了 解决 这 个 问题 ， 百 度 新 写 了 一 个 类 Bistreaming (Binary 
Streaming) ， 这 里 Java 子 进程 Mapper 和 Reducer 按 照 (KeyLen, Key, 
ValLen, Value) 的 方式 通信 ， 用 户 可 以 按照 这 个 协议 书写 程序 。 


用 户 认证 的 问题 ， 这 个 问题 的 解决 办 法 是 使 用 户 名 、 密 码 、 所 属 
组 都 在 NameNode 和 JobTracker 上 集中 维护 ， 用 户 连 接 时 需要 提供 用 户 
名 和 密码 ， 从 而 保证 数据 的 安全 性 。 百 度 下 一 步 的 工作 重点 主要 涉及 
以 下 内 容 : 


内 存 方面 ， 降 低 NameNode 的 内 存 使 用 并 人 研究 JVM 的 内 存 管理 ; 


调度 方面 ， 改 进 任务 可 以 被 抢占 的 情况 ， 同 时 开发 出 自己 的 基于 
Capacity 的 作业 调度 器 ， 让 等 待 作业 队列 具有 优先 级 且 队 列 中 的 作业 
可 以 设置 Capacity， 并 可 以 支持 TaskTracker 分 组 ; 


压缩 算法 ， 选 择 较 好 的 方法 提高 压缩 比 、 诚 少 存 储 容量 ， 同 时 选 
取 高 效率 的 算法 用 于 shuffle 数 据 的 压缩 和 解压 ; 


对 Mapper 程 序 和 Reducer 程 序 使 用 的 资源 进行 控制 ， 防 止 过 度 消 耗 
资源 导致 机 器 死机 。 以 前 是 通过 修改 Linux 内 核 来 进行 控制 的 ， 现 在 考 
虑 通过 在 Linux 中 引入 Cgroup 来 对 Mapper 和 Reducer 使 用 的 资源 进行 控 
制 | 


将 DataNode 的 并 发 数据 读 写 方式 由 多 线程 改 为 select 方 式 ， 来 文 持 
大 规模 并 发 读 写 和 Hypertable 的 应 用 。 


百度 同时 也 在 使 用 Hypertable， 它 是 以 Google 发 布 的 BigTable 为 基 
础 的 开源 分 布 式 数据 存储 系统 ， 百 上 度 将 它 作 为 分 析 用 户 行为 的 平台 ， 


同时 在 元 数据 集中 化 、 内 存 占用 优化 、 集 群 安全 停机 、 故 障 目 动 回复 
等 方面 做 了 一 些 改进 。 


19.4 即刻 搜索 中 的 Hadoop 


19.4.1 即刻 搜索 简介 


即刻 搜索 是 由 运 彰 一 年 的 人 民 搜 索 改名 而 来 ， 它 秉承 “创新 、 公 
正 、 权 威 ” 的 理念 ， 致 力 于 成 为 大 众 探索 求知 的 工具 、 工 作 生 活 的 助手 
和 文化 交流 的 平台 。 相 对 于 网 络 上 百家争鸣 的 搜索 引擎， 即刻 搜索 区 
别 于 其 他 引擎 的 特点 是 : 新 颖 的 索引 架构 ， 先 进 的 大 规模 并 行 处 理 系 
统 ， 大 规模 应 用 的 内 存 技术 和 干净 、 便 捷 的 网 络 搜索 环境 。 即 刻 搜索 
在 开发 之 初 束 用 到 了 Hadoop 和 并 行 处 理 的 思想 ， 下 面 介绍 即刻 搜索 中 
的 Hadoop 应 用 。 


19.4.2 ”即刻 Hadoop 应 用 架构 


图 19-5 是 即刻 搜索 引 敬 的 应 用 架构 图 。 


即刻 搜索 框架 结构 比较 明了 “。 下面 我 们 对 框架 各 个 角色 进行 介 


链接 库 : 这 征 一 个 保存 了 网 络 中 内 外 部 链接 的 初始 数据 库 ， 即 刻 
搜索 根据 数据 库 中 的 链接 进行 网 页 的 朴 取 。 


BAER: 网 络 疏 虫 是 搜索 引擎 中 必 不 可 少 的 部 分 ， 即 刻 聆 虫 根 
据 链 接 库 的 内 容 ， 疏 取 网 络 中 的 页 面 资源 ， 形 成 SSTable 并 输入 HDFS 
中 。SSTable 是 Google 在 BigTable 设 计 中 提出 的 一 种 磁盘 文件 存储 结 
构 ， 全 称 是 Sorted String Table， 以 <key, value> 对 方式 在 磁盘 上 存储 
数据 ， 并 根据 key 的 值 进行 排序 ， 文 持 随 机 查找， 有 不 俗 的 读 写 性 能 。 


HDFS_Bridge: 这 是 即刻 搜索 的 中 间 件 ， 为 网 络 疏 虫 提 供 写 缓存 
服务 ， 保 证 怜 虫 快速 写 操 作 。 有 具体 来 说 ， 通 过 HDFS_Bridge， 疏 虫 生 
成 的 SSTable 文 件 ， 首 先 以 内 存 写 的 速度 将 数据 写 入 HDFS_Bridge， 然 
后 由 DFS 直 接 将 数据 文件 写 出 到 DFS 磁 盘 上 ， 这 样 通过 HDFS_Bridge 就 
将 SSTable 数 据 的 磁盘 WO 转化 成 了 内 存 写 ， 提 高 了 速度 。 


HDFS: 即刻 搜索 中 保存 SSTable 的 分 布 式 文件 系统 ， 主 要 提供 海 
量 数据 的 存储 服务 ， 保 证 数据 的 安全 性 和 读 写 服务 的 可 靠 性 。 


MapReduce: 这 一 层 主要 应 用 Hadoop 中 的 MapReduce 并 行 编程 杠 
架 来 对 息 虫 原始 数据 进行 分 析 ， 包 括 PageRank 计 算 、 链 接 分 析 统 计 、 
倒 排 索引 生成 等 ， 主 要 提高 了 搜索 引擎 中 数据 分 析 步 骤 的 速度 ， 实 现 
了 并 行 化 处 理 。 


online-service-cluster: 这 一 层 是 面 同 用 户 的 ， 主 要 根据 用 户 输 入 
的 查询 ， 分 析 关 键 词 ， 通 过 并 行 框架 查找 相关 结果 并 返回 。 


19-5 ”即刻 搜索 架构 图 


这 里 再 重点 介绍 一 下 MapReduce 层 。 在 即刻 搜索 中 ， 各 种 基础 数 
据 上 的 操作 都 是 以 C++ 语言 编写 、 经 过 Hadoop Pipes 的 封装 之 后 提交 给 
Hadoop 执 行 的 ， 但 是 具体 使 用 中 即刻 搜索 也 从 代码 层 修 改 了 Hadoop 
Pipes 的 协议 等 内 容 来 适应 目 己 的 需求 。 在 具体 使 用 中 ， 即 刻 搜索 首先 


定义 了 MapReduce 框 架 中 的 Mapper 封 装 右 和 Reducer 封 装 右 ， 以 Mapper 
封装 需 为 例 ， 其 核心 代码 如 下 : 


Wrapperclass BasicMapper{ 

public: 

typedef: mapreduce: TaskContextTaskContext; 
explicit BasicMapper () { 
map_context_.reset (new MapContext () ) ; 


} 

virtual~BasicMapper () {} 

// 初 始 化 操作 

virtual void OnCreate (TaskContext*context) {} 
// 定 义 Map 阶 段 


virtual void OnFirstMap (MapContext*context) {} 
virtual void OnLastMap (MapContext*context) {} 
virtual void Map (MapContext*context) =0; 
protected: 

// 获 取 输 入 value 

const std: string&GetInputValue () { 

return map_context_->GetInputValue () ; 


} 

// 获 取 输 入 key 

const std: string&GetInputkey () { 
return map_context_->GetInputKey () ; 


} 

// 反 序列 化 

template<typenameT> 

boolValueToThrift (T*object) { 

return map_context_->ValueToThrift (object) ; 


DISALLOW_COPY_AND_ASSIGN (BasicMapper) ; 
} 


利用 这 些 封 著 絮 作 为 基 类 ， 编 写 日 己 的 MapReduce 框 染 代码 束 非 
常 方 便 。 下 面 整 是 一 个 简单 的 例子 : 


class SampleMap: public BasicMapper{//Mapper 
public: 


virtual~SampleMap () {} 
virtual void Map (mapreduce: MapContext*context) 


string key=GetInputKey () ; 

string value=GetInputValue () ; 

Object obj_val; 

ValueToThrift (&obj_val) ; // 反 序列 化 
context->Emit (key, newvalue) ; // 输 出 
} 

}; 

class SampleRed: public BasicReducer{ 
public: 

virtual void Reduce (mapreduce: MapContext*context) { 
string key=GetInputKey () ; 

while (NextValue () ) { 

string value=GetInputValue () ; 


context->Emit (key, newvalue) ; // 输 出 
} 
}; 
可 以 看 出 : 上 面 的 代码 同 用 Java 语 言 编 写 的 代码 非常 类 似 。 除 了 
上 面 的 主体 Mapper 和 Reducer 代 码 之 外 ， 再 定义 好 其 他 作业 信息 就 可 以 
提交 给 Hadoop Pipes 来 运行 了 。 


19.4.3 即刻 Hadoop 应 用 分 析 


前 面 简单 介绍 了 即刻 搜索 的 框 如 和 在 即刻 搜索 中 如 何 开发 自己 的 
MapReduce 程 序 。 可 以 看 出 ， 即 刻 搜索 在 应 用 Hadoop 时 直接 应 用 了 
Hadoop 系 统 ， 在 搜索 引 警 的 数据 存储 模块 直接 使 用 Hadoop 的 数据 存储 
服务 ， 在 任务 执行 和 处 理 模块 时 直接 使 用 MapReduce 并 行 框架 。 虽 然 
是 直接 使 用 ， 但 是 并 不 简单 。 作 为 独立 的 系统 ，Hadoop 在 应 用 到 某 个 
系统 中 时 ， 需 要 将 Hadoop 各 个 模块 根据 自己 系统 的 实际 需求 进行 封 
装 。 在 分 布 式 存储 模块 ， 根 据 海 量 数据 存储 的 需求 ， 即 刻 搜索 在 
HDFS 的 输入 上 由 HDFS_Bridge 进 行 封 装 。 通 过 此 封 疾 。HDFS 能 为 即 
刻 搜 索 的 网 络 朴 虫 提 供 写 缓存 ， 保 证 其 海量 数据 的 写 入 速度 。 在 
MapReduce 框 架 模 块 ， 即 刻 搜索 根据 并 行 任务 执行 的 需求 ， 对 
MapReduce 中 的 Mapper 和 Reducer 进 行 了 封装 ， 简 化 了 程序 员 代码 书写 
难度 。 


总 体 来 说 ， 即 刻 搜索 在 系统 中 根据 目 己 的 需求 ， 封 装 了 Hadoop 中 
分 布 式 文件 系统 和 MapReduce 并 行 框 架 的 对 外 接口 ， 提 高 了 系统 的 处 
理 效 率 和 存储 性 能 。 


19.5 Facebook 中 的 Hadoop 和 HBase 


众所周知 ，Facebook 坪 目前 世界 上 最 大 的 社区 网 站 。 从 2004 年 创 
建 之 初 的 以 服务 学 生 为 目的 的 局 部 交互 网 站 发 展 到 2009 年 世界 范围 内 
的 综合 社交 网 站 ， 服 务 8 亿 多 人 群 ， 而 现在 它 已 经 剑 指 移动 服务 、 搜 索 
服务 、 网 络 直播 等 综合 网 络 服务 提供 领域 ， 引 在 发 展 成 为 综合 性 网 络 
服务 商 。 


Facebook 作 为 全 球 性 社交 网 站 ， 拥 有 约 8 亿 活 路 用 户 ， 其 每 天 产生 
的 数据 非常 上 庞大。 下 面 简单 列举 一 些 统计 数据 (截至 2011 年 9 月 ) : 


把 Facebook 用 户 群 作为 一 个 国家 ， 它 会 成 为 世界 人 口 第 三 大 国 
Z; 


Facebook 用 户 在 网 站 上 已 上 传 了 1400 亿 余 张 照片 ; 


每 天 上 网 的 人 中 有 44% 访 问 了 Facebook， 它 是 继 Google 之 后 访问 
率 第 二 高 的 网 站 ; 


Facebook 用 户 每 20 分 钟 发 表 1200 万 条 评论 ， 每 个 月 分 享 300 亿 条 内 
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储 。 用 户 群 的 资料 需要 维护 ， 用 户 分 至 的 照片 、 发 表 的 评论 、 分 至 的 


内 容 都 需要 存储 ， 用 户 访问 历史 需要 进行 分 析 处 理 ， 同 时 还 需要 对 原 
数据 进行 提取 、 反 馈 给 用 户 等 。 这 些 里 然 并 不 们 单 ， 但 在 巨大 用 户 
群 和 使 用 率 面 前 ， 都 将 成 为 典型 的 海量 数据 存储 和 处 理 任务 。 那 么 
Facebook 到 拭 面 临 哪些 海量 数据 的 任务 ? 它 为 什么 使 用 
Hadoop+HBase? 它 和 是否 有 所 创新 或 者 改进 ”下面 将 一 一 解答 这 些 问 


题 。 


19.5.1 ”Facebook 中 的 任务 特点 


Facebook 的 巨大 用 户 群 和 使 用 率 为 其 种 来 了 高 效 存储 海量 数据 的 
挑战 。 下 面 我 们 从 Facebook 中 一 些 关 键 性 技术 的 任务 特点 出 发 ， 介 绍 
Facebook 在 存储 海量 数据 时 必须 满足 的 一 些 特性 。 


1.Facebook 消 息 机 制 


Facebook 的 消息 机 制 为 每 一 个 用 户 提 供 一 个 “facebook.com” 的 邮箱 
地 址 ， 它 负责 整合 用 户 或 组 之 间 的 邮件 、SMS (Short Message 
Service) 以 及 聊天 记录 。 该 机 制 是 Facebook 收 件 箱 的 基础 ， 需 要 管 
理 “ 消 息 从 哪 位 用 户 发 往 哪 位 用 户 *。 该 新 型 应 用 程序 不 但 需要 能 够 适 
应 同时 为 超过 5 亿 用 户 提供 服务 ， 还 需要 达到 PB 级 数据 的 否 吐 以 及 长 
时 间 不 间断 运行 的 需求 。 除 此 之 外 ， 新 的 线程 模型 同样 需要 系统 能 够 
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这 个 机 制 的 服务 内 容 决 定 了 它 每 天 需要 处 理 数 十 亿 的 即时 消 轧 及 
数 百 万 的 系统 消息 ， 而 这 些 消 妃 的 特点 又 决定 了 该 机 制 有 如 下 特点 : 


1) 高 写 吞 吐 量 ， 由 于 每 时 每 刻 都 有 成 千 上 万 消息 产生 ， 那 么 每 天 
数据 的 插入 量 将 会 非常 大 ， 并 且 会 持续 性 地 增长 。 


2) 数据 的 增 量 存储 : 从 该 机 制 的 特性 不 难 发 现 ， 消 息 机 制 一 般 很 
少 涉及 删除 操作 ， 除 非 用 户 显 式 地 发 出 该 请 求 。 此 外 ， 每 一 个 用 户 的 
收 件 箱 将 可 能 无 限量 地 增长 。 男 外 ， 对 于 每 条 消 恩 记录 ， 一 般 只 会 在 
近期 被 读 有 限 的 次 数 ， 从 长 远 来 讲 很 少 再 次 查看 。 因 此 ， 大 部 分 的 数 
据 不 会 再 次 被 读 到 ， 但 是 由 于 存在 用 户 访问 的 可 能 性 ，Facebook 需 要 
保证 这 部 分 数据 一 直 处 于 可 用 状态 。 在 据 图 存储 这 一 类 的 数据 ， 
Facebook 以 用 户 为 主键 来 建立 索引 ， 在 索引 之 下 存储 该 用 户 的 线程 和 
消息 记录 。 


3) 数据 迁移 ; 由 于 消息 机 制 进行 更 新 ， 采 用 新 的 系统 以 及 数据 模 
型 ， 这 束 意 味 着 Facebook 需 要 将 数据 从 原 数据 库 中 进行 分 离 并 迁移 到 
新 的 数据 库 中 。 那 么 支持 大 范围 扫描 、 随 机 访问 以 及 快速 大 数据 块 导 
入 操作 的 系统 将 会 大 大 减少 用 户 数 据 迁 移 的 时 间 。 


2.Facebook Insights 


Facebook Insights 为 开发 者 以 及 网 站 管理 员 提供 了 关于 Facebook 站 
点 之 间 活 动 实时 分 析 的 接口 ， 包 括 社会 网 络 插件 、Facebook 页 面 以 及 
Facebook 广 告 。 通 过 这 些 匿 名 化 的 数据 ， 一 些 商 业 用 户 可 以 对 
Facebook 的 情况 有 深入 的 了 解 ， 例 如 印象 (impression) ` AEX ` W 
页 访问 次 数 等 。 通 过 这 些 信 息 ， 商 业 用 户 可 以 对 自己 的 服务 进行 改 


进 。 


从 这 个 技术 的 服务 内 容 来 看 ，Facebook Insights 团 队 想 要 为 用 户 提 
供 短 时 间 内 用 户 活动 的 统计 信息 ， 也 殉 是 在 海量 统计 信息 上 的 实时 数 
据 分 析 。 这 将 需要 Facebook 能 够 提供 大 规模 的 、 异 步 排 队 的 系统 ，3 
使 用 系统 对 事件 进行 处 理 、 存 储 和 聚合 操作 。 该 系统 应 具备 较 高 的 容 
错 性 ， 且 文 持 每 秒 成 干 上 万 个 事件 的 并 发 操作 。 


3.Facebook 度 量 系统 


在 Facebook 中 ， 系 统 中 的 所 有 软 硬 件 需 要 将 自身 的 统计 信息 存储 
到 ODS (Operations Data Store) 中 。 例 如 ， 记 录 某 一 个 服务 器 或 某 一 
组 服务 器 中 的 CPU 使 用 率 ; 或 者 ， 存 储 对 数据 集群 的 写 操作 记录 “。 这 
些 操作 将 对 写 吞 吐 量 有 很 高 的 要 求 。 这 要 求 系统 应 具备 如 下 特点 : 


1) 上 自动 分 区 : 大 量 的 索引 以 及 时 序 写 操作 再 加 上 不 可 预知 的 数据 
量 的 增长 ， 这 使 得 采用 sharding 模 式 的 MYSQL 数据库 难以 应 付 ， 甚 至 
需要 管理 人 员 人 为 地 对 数据 进行 分 片 。 


2) 快速 读 取 最 近 数 据 并 执行 表 扫 描 : 在 Facebook 很 多 的 操作 仅仅 
涉及 最 近 的 数据 ， 对 较 早 的 数据 访问 较 少 ， 但 是 之 前 的 数据 也 同样 不 
能 丢失 ， 必 须 保证 其 处 于 可 用 状态 。 例 如 邮件 服务 、 消 轧 服 务 等 。 同 
时 ， 这 些 操作 还 要 求 对 最 近 的 数据 具有 较 快 的 查询 速度 。 


结合 具体 技术 特点 的 介绍 和 社交 网 络 网 站 共有 的 一 些 特点 ， 
Facebook 中 任务 特点 对 存储 系统 的 需求 可 以 总 结 为 如 下 几 个 方面 : 


由 于 用 户 的 增加 以 及 市 场 的 拓展 ，Facebook 要 求 存储 系统 能 够 文 
持 对 系统 容量 的 增 量 扩充 ， 并 且 要 求 该 操作 所 带 来 的 额外 开销 要 最 小 
化 ， 同 时 应 避免 该 操作 所 市 来 的 集 机 问题 。 例 如 ， 在 某 些 情况 下 ， 
Facebook 可 能 需要 能 够 快速 地 增加 系统 的 容量 ， 并 且 要 求 系统 能 够 目 
动 地 处 理 新 旧 硬 件 之 间 的 负载 均衡 和 利用 率 的 问题 。 


(2) BN Sets 


在 Facebook 中 有 很 多 的 应 用 程序 需要 存储 大 量 的 数据 ， 而 对 读 的 
需求 相对 要 低 。 因 此 ，Facebook 对 写 操作 有 较 高 的 要 求 。 


(3) 高 效 低 延迟 的 强 一 致 性 数据 中 心 


在 Facebook 中 有 很 多 非常 重要 的 应 用 程序 (如 消息 ， 它 们 对 数 
据 的 一 致 性 有 很 高 的 要 求 。 例 如， 在 用 户主 页 上 显示 的 “未 读 ? 消 息 数 
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的 分 布 式 强 一 致 性 存储 系统 确实 不 可 能 ， 只 有 当 数 据 位 于 同一 个 数据 
中 心 之 内 ， 提 供 强 一 致 性 的 数据 存储 才 变 得 稍 有 可 能 。 


(4) 高 效 的 磁盘 随机 读 


尽管 应 用 程序 级 别 的 缓存 GRADUA) 得 到 了 广泛 的 应 
用 和 人 发展 ， 在 Facebook， 仍 然 有 很 多 的 访问 不 能 命中 缓存 中 的 数据 ， 
而 必须 访问 后 端的 数据 库 系 统 。 


(5) 高 可 用 性 


Facebook 需 要 为 用 户 提供 一 种 能 够 长 时 间 不 间断 的 服务 ， 这 些 服 
务 应 该 能 够 处 理 计 划 内 的 和 计划 外 的 事件 (例如 软件 更 新 、 硬 件 或 容 
量 扩充 以 及 硬件 故障 ) 。 此 外 ，Facebook 还 需要 能 够 容忍 数据 中 心 少 
量 数据 的 丢失 以 及 在 某 一 可 允许 的 时 间 范 围 内 向 其 他 数据 中 心 进行 数 
据 备 份 。 


Facebook 中 对 于 长 时 间 的 MySQL 数 据 库 的 运 维 经 验 显 示 故 障 隔离 
是 非常 重要 的 。 如 果 某 一 个 数据 库 发 生 故 障 ， 那 么 在 Facebook 中 要 求 
只 有 很 少 一 部 分 用 户 会 受到 该 事件 的 影响 。 


(7) 原子 “ 读 - 修 改 - 写 ” 原 语 


原子 的 增 量 以 及 比较 和 交换 API 在 创建 无 锁 并 发 应 用 程序 中 非常 
有 用 ， 同 时 也 是 的 层 存储 系统 必须 支持 的 操作 。 


(8) 范围 扫描 


某 些 应 用 程序 需要 文 持 某 一 范围 内 某 些 列 集合 的 高 效 检索 。 例 
如 ,检索 某 一 用 户 最 近 的 100 条 消 乱 记录 或 者 计算 某 一 给 定 广 告 商 在 过 
去 24 小 时 内 每 小 时 的 印象 (impression) 数 。 


同样 Facebook 中 的 任务 也 决定 了 它 可 以 不 强制 要 求 下 面 几 点 : 


1) 单个 数据 中 心 内 的 网 络 分 区 容错 性 。 不 同 的 系统 组 件 往往 本 身 
就 是 非常 集中 化 的 。 例 如 ，MySQL 服 务 器 很 可 能 会 集中 地 被 放置 在 几 
个 机 架 之 内 。 单 个 数据 中 心 内 的 网 络 分 区 故障 将 可 能 导致 整个 服务 能 
力 上 的 故障 。 因 此 ， 需 要 通过 设置 元 余 网 络 来 避免 单个 分 区 故障 引起 
的 系统 不 可 用 。 


2) 零 故 障 率 。 从 经 验 来 看 ， 大 集群 中 机 器 故障 是 不 可 避免 的 。 婚 
然 不 存在 这 样 的 理想 情况 ， 那 么 必须 对 设计 方案 进行 某 种 ， 也 束 是 
说 ，Facebook 选 择 面 对 故 障 的 机 器 并 尽 可 能 地 降低 宕 机 的 概率 。 


3) 跨 数据 中 心 的 active-active 服 务 能 力 。 如 前 所 述 ，Facebook 假 设 
用 户 的 数据 被 存储 在 不 同 数 据 中 心 。 因 此 ，EFacebook 使 用 用 户 端的 组 
存 来 降低 系统 的 延迟 。 


19.5.2 MySQL VS Hadoop+HBase 


面 对 Facebook 中 任务 对 存储 系统 的 要 求 ，Facebook 如 何 选择 呢 ? 
1.MySQL 


MySQL 是 比较 流行 的 一 款 开 源 数据 库 ， 它 轻巧 简便 。Facebook 在 
最 初 使 用 MySQL+Memcached 构 建 存储 层 ，MySQL 焦 群 数据 库 作为 底 
层 存 储 ，Memcached 构 建 数据 缓存 层 。 这 样 既 发 挥 J 了 MySQL 存储 系统 
较 高 的 随机 读 效 率 及 其 简单 好 用 等 特点 ， 又 通过 Memcached 绥 存 层 在 


高 访问 量 下 提高 了 系统 的 访问 效率 。 


但 是 Facebook 在 发 展 过 程 中 逐渐 发 现 ，MySQL 在 数据 量 剧 增 和 新 
应 用 上 线 提供 服务 情况 下 并 不 能 像 之 前 那样 完美 地 工作 。 主 要 是 
MySQL 集 群 有 以 下 问题 : 随机 写 操作 效率 低 、 可 扩展 性 差 、 管 理 成 本 
和 硬件 成 本 高 、 负 载 均 衡 并 不 理想 等 。 而 这 些 缺 点 恰巧 正 是 Facebook 
中 海量 数据 所 市 来 的 系统 需求 。 所 以 目前 Facebook 已 经 放弃 
MySQL+Memcached 构 建 的 存储 层 ， 而 转向 了 Hadoop+HBase ° 


2.Hadoop+HBase 


Facebook 在 发 展 过 程 中 发 现 MySQL 构 建 的 存储 层 并 不 能 完全 满足 
系统 的 需求 后 ， 束 开始 审视 到 奔 什 么 样 染 构 的 存储 层 能 够 最 大 程度 上 


满足 Facebook 的 需求 。 


经 过 大 量 地 人 研究 和 实验 之 后 ，Facebook 最 终 选 择 使 用 Hadoop 和 
HBase 来 作为 下 一 代 压 层 存 储 系 统 。 这 主要 是 基于 : 


1) HBase 的 特点 满足 Facebook 对 存储 系统 的 需求 。HBase 基 于 列 
存储 分 布 式 的 开源 数据 库 能 满足 系统 海量 数据 存储 的 需求 和 高 扩展 性 
的 需求 ， 同 时 HBase 能 够 保证 高 吞吐 的 写 操作 。 它 是 一 个 能 够 实现 快 
速 随机 和 流 读 取 操 作 的 分 布 式 存储 系统 。 虽 然 不 文 持 传统 的 路 行事 
务 ， 但 HBase 面 向 列 的 存储 模型 在 数据 存储 上 提供 了 很 高 的 灵活 性 并 
且 支 持 表 内 的 复杂 索引 。 同 时 HBase 对 于 写 密集 的 事务 是 一 个 理想 的 
选择 ， 它 能 够 维 扩大 量 的 数据 ， 文 持 复杂 索引 ， 具 有 灵活 的 伸缩 性 ， 
它 还 能 提供 行 级 别 的 原子 性 保证 。 


2) Facebook 有 信心 解决 HBase 在 现实 使 用 中 存在 的 问题 。HBase 
现在 已 经 能 够 提供 高 一 致 性 、 高 写 吞 吐 率 的 键 值 存储 。 现 有 的 HDFS 
NameNode 作 为 管理 的 中 心 可 能 成 为 系统 的 瓶颈 。Facebook 的 HDFS 团 
队 决 定 构建 一 个 高 可 用 的 NameNode (在 Facebook 中 称 为 
AvatarNode) ， 这 对 于 数据 仓库 操作 也 将 非常 有 用 。 这 样 好 的 磁 副 读 
效率 就 可 以 满足 (向 HBase 的 LSM 树 中 添加 Bloom filter， 使 本 地 
DataNode 能 够 高 效 地 执行 读 操作 并 且 缓 存 NameNode 的 metadata) 。 在 
系统 故障 和 容错 方面 ，HDFS 能 够 在 磁 副 子 系统 中 容 丸 和 隔离 故障 。 
整个 HBase/HDFS 集 群 的 故障 是 系统 容错 的 一 部 分 ， 可 以 考虑 将 数据 迁 


移 到 较 小 的 HBase 集 群 中 。HBase 社 区 中 对 “复制 "这 块 内 容 提 供 的 是 一 
个 预定 义 的 路 径 ， 用 来 解决 灾难 性 的 故障 。 


所 以 整体 来 说 ， 采 用 Hadoop+HBase 的 存储 架构 ， 并 通过 Facebook 
根据 自己 需求 进行 局 部 的 优化 和 改进 之 后 ， 这 样 的 存储 架构 能 够 满足 
系统 绝 大 部 分 需求 ， 提 供 稳定 、 高 效 、 安 全 的 存储 服务 。 


19.5.3 ”Hadoop 和 HBase 的 实现 


前 面 介绍 了 Facebook 中 存储 架构 的 设计 需求 和 它 为 什么 采用 
Hadoop 和 HBase 来 实现 存储 架构 。 这 部 分 我 们 将 为 大 家 介绍 Facebook 
如 何 实现 对 Hadoop 和 HBase 的 应 用 及 进行 哪些 优化 。 


1. 实 时 HDFS 


HDFS 作 为 Hadoop 的 分 布 式 文件 存储 系统 ， 用 来 文 持 MapReduce 
应 用 程序 的 操作 。 该 文件 系统 具有 可 扩展 性 以 及 较 好 的 流 数据 处 理 功 
能 ， 并 且 具 有 较 强 的 容错 能 力 。Facebook 通 过 对 HDFS 的 修改 和 调整 ， 
使 HDFS 具 有 支持 实时 操作 和 在 线 服务 的 特性 。 


(1) 高 可 用 性 -AvatarNode 


在 HDFS 中 ， 仅 有 一 个 唯一 的 Master， 即 NameNode。 在 这 种 架构 
下 ， 当 NameNode 停 止 服务 后 系统 将 处 于 不 可 用 状态 。 对 于 需要 7x24 
小 时 服务 的 软件 或 系统 来 说 ， 肯 定 和 希望 能 够 获得 更 稳定 的 服务 ， 因 此 
这 样 的 架构 可 能 并 不 是 十 分 理想 。 所 以 Facebook 根 据 自 己 的 需求 对 原 
来 的 NameNode 进 行 了 一 部 分 扩展 ， 称 为 AvatarNode， 来 保证 其 可 用 
性 。 


AvatarNode 


在 原生 Hadoop 的 启动 阶段 ，HDFS 的 NameNode 首 先 从 fsimage 文 件 
中 读 取 文件 系统 的 metadata 信 息 。 这 个 metadata 信 息 存 储 了 HDFS 中 
一 个 文件 的 名 称 、 目 录 以 及 meta 信 息 。 然 而 ，NameNode 并 不 是 永久 地 
存储 每 一 个 块 的 位 置 。 因 此 ， 当 发 生 故 障 后 ，NameNode 的 重新 启动 
将 包含 了 两 个 阶段 : 第 一 阶段 是 读 取 文 件 系统 镜像 ， 导 入 事务 日 志 ， 
将 新 的 文件 系统 镜像 存储 回 磁盘 ;第 二 阶段 是 DataNode 通 过 对 块 的 处 
理 向 NameNode 报 告 未 知 块 的 存储 位 置信 息 。Facebook 中 最 大 的 HDFS 
集群 存储 了 大 约 一 亿 五 和 万 的 文件 ， 这 两 个 阶段 的 操作 将 需要 大 约 45 
分 钟 的 时 间 。 


如 宋 在 原生 Hadoop 的 基础 上 采用 备份 节点 的 话 ， 那 么 在 发 生 故障 
时 可 以 避免 从 磁盘 中 读 取 镜 像 文件 ， 但 是 仍然 需要 从 所 有 的 DataNode 
中 收集 块 的 信息 ， 这 需要 20 分 钟 左右 的 时 间 。 男 一 个 问题 是 ， 当 采用 
备份 太后 的 时 候 ，NameNode 需 要 同步 地 更 新 备份 节点 所 存储 的 数 
据 ， 这 样 系统 的 可 靠 性 〈 一 致 性 ) 将 低 于 单个 NameNode 世 点 的 可 靠 
性 。 因 此 ，AvatarNode 应 运 而 生 。 


如 图 19-6 所 示 ， 一 个 HDFS 集 群 包含 两 个 AvatarNode: 主 
AvatarNode 和 备用 AvatarNode 〈 同 一 时 间 只 有 一 个 Node 处 于 活跃 状 
AS) 。 主 AvatarNode 实 际 上 等 同 于 HDFS 的 NameNode， 不 同 的 是 HDFS 
集群 将 文件 系统 的 镜像 和 事务 日 志 的 备份 存储 在 NFS 中 。 每 当主 
AvatarNode 更 新 了 存储 在 NFS 文 件 系统 中 的 日 志 之 后 ， 备 用 AvatarNode 


节点 同时 读 取 该 更 新 ， 然 后 将 更 新 的 事务 应 用 在 自己 的 文件 系统 镜像 
以 及 日 志 上 。 备 用 AvatarNodeT 点 负责 生成 主 AvatarNode 的 check- 
point， 需 要 定期 合并 事务 日 志 并 创建 fsimage。 因 此 ， 在 该 系统 中 将 不 


再 设置 Secondary NameNode ° 


19-6 AvatarNode 


在 集群 中 ，DataNode 不 仅仅 与 主 AvatarNode 进 行 通 信 ， 同 时 还 与 
备用 AvatarNode 进 行 通信 (发 送 心跳 、 块 报告 和 块 分 配 信息 ) ， 这 样 
当 发 生 故 障 时 ， 备 用 AvatarNode 可 以 马上 变 为 主动 AvatarNode， 之 后 
局 动 的 原 AvatarNode 将 成 为 新 的 备用 AvatarNode。 集群 中 的 Avatar 
DataNode 也 同时 与 两 个 AvatarNode 进 行 通信 ， 他 们 通过 与 ZooKeeper 的 
整合 来 识别 哪 一 个 AvatarNode 是 当前 的 主 AvatarNode。 此 外 ，Avatar 的 
DataNode 仅 仅 处 理 来 自主 AvatarNode 的 备份 /删除 等 命令 。 


对 HDFS 日 志文 件 的 改进 


当 块 文件 被 关闭 或 者 被 同步 / 写 出 的 时 候 ，HDFS 会 将 块 对 应 的 ID 
存储 到 事务 日 志 中 。 由 于 想 尽 量 减少 故障 恢复 的 时 间 ， 那 么 备份 
AvatarNode 需 要 知晓 每 一 个 块 的 位 置 。 因 此 Facebook 选 择 同时 将 块 分 
配 操作 写 入 到 日 志 中 。 


男 外 ， 当 备份 AvatarNode 从 事务 日 志 中 读 取 日 志 的 时 候 (此 时 ， 
主 AvatarNode 正 在 写 该 日 志文 件 ) ， 那 么 备份 AvatarNode 将 有 可 能 只 
读 取 到 部 分 的 事务 ( 非 完整 的 ， 将 有 可 能 导致 系统 故障 ) 。 为 了 避免 
这 种 情况 的 发 生 ，Facebook 修 改 了 事务 日 志 的 格式 ， 使 其 包含 了 写 入 
该 事务 的 长 度 ， 事 务 的 ID 以 及 事务 的 校 验 和 。 


分 布 式 Avatar 文 件 系 统 (DAFS) 


Facebook 将 修改 后 的 HDFS 命 名 为 分 布 式 Avatar 文 件 系 统 

(Distributed Avatar File System, DAFS) ， 它 是 一 个 部 署 在 客户 端的 分 
层 文件 系统 ， 能 够 提供 一 个 对 HDFS 的 跨 故障 透明 访问 。DAFS 与 
ZooKeeper 整 合 在 一 起 。ZooKeeper 在 某 一 ZNode 上 保存 了 某 一 集群 主 
AvatarNode 闻 点 的 物理 地 址 ， 当 客户 端 尝试 与 HDFS 和 集群 (例如 ， 
dfs.cluster.com) 进行 连接 的 时 候 ，DAFS 将 查看 ZooKeeper 中 保存 了 实 
际 主 AvatarNode 物 理 路 径 的 ZNode， 然 后 将 之 后 到 来 的 连接 重 定位 到 
该 主 AvatarNode 上。 如 果 由 于 网 络 环境 问题 使 路 径 不 可 达 ， 那 和 DAFS 


将 从 ZooKeeper 中 进行 重新 检索 。 如 果 在 刺激 前 发 生 故 障 恢复 事件 ， 
DAFS 将 一 直 阻 塞 ， 直 到 恢复 完成 。DAFS 对 于 访问 HDFS 的 应 用 程序 
来 说 是 完全 透明 的 ， 即 这 些 应 用 程序 不 知道 有 DAFS 的 存在 。 


(2) Hadoop RPC 兼 容 性 问题 


在 Facebook 中 需要 为 消息 应 用 程序 运行 不 同 的 Hadoop 集 群 。 
此 ， 殉 需要 系统 能 够 一 次 性 地 在 不 同 的 集群 中 部 署 新 版 的 软件 。 这 丈 
需要 Hadoop 的 客户 端 能 够 与 运行 不 同 版 本 Hadoop 软 件 的 服务 郁 进 行 交 
互 操 作 。Facebook 对 Hadoop 的 RPC 软 件 进 行 修改 使 其 能 够 自动 地 识别 
所 处 服务 器 的 软件 版 本 ， 然 后 选择 合适 的 协议 与 之 通信 。 


(3) 块 放置 策略 


默认 的 HDFS 放 置 策略 对 块 的 放置 位 置 有 很 少 的 限制 ， 对 于 非 本 
地 的 副本 ， 块 一 般 随机 存放 在 任意 机 架 的 任意 节点 中 。 为 了 降低 多 个 
节点 同时 穷 机 时 数据 丢失 的 概率 ，Facebook 设 计 了 一 个 可 播 拔 式 块 放 
置 策略 。 它 将 块 副本 放置 在 较 小 的 且 可 配置 的 一 组 节点 中 。 通 过 实 
验 ，DAFS 使 数据 丢失 概率 降低 了 100 倍 。 


(4) 实时 作业 性 能 提升 


HDFS 是 一 个 高 吞吐 量 的 系统 ， 然 而 对 于 响应 时 间 却 并 不 十 分 理 
想 。 例 如 ， 当 应 对 故障 时 ， 它 更 倾向 于 “ 重 试 ? 或 “等 到 ”， 而 不 是 对 错 


运 进 行 处 理 。 


RPC 超 时 : Hadoop 使 用 TCP 连 接 来 发 送 RPC 调 用 。 当 RPC 窜 户 端 
侦 测 到 RPC 连 接 超时 时 ，Facebook 并 不 是 马上 将 连接 断 开 ， 而 是 首先 
问 服 务 器 发 送 一 个 ping， 如 采 服 务 硕 仍 晶 有效 ， 那 么 客户 端 将 等 行 服 
务 絮 的 响应 而 不 断 开 连 接 。 因 为 ， 在 这 种 情况 下 服务 器 很 可 能 处 于 繁 
忙 状 态 ， 断 开 重 连 要 么 导致 失败 要 么 给 服务 器 增加 额外 的 负担 。 


然而 一 直 等 竺 服务 器 的 啊 应 将 陷入 另 一 个 极端 。 那 么 在 Facebook 
中 为 RPC 链 接 设 置 一 个 超时 时 间 ， 当 超时 之 后 ， 客 户 端 竹 试 器 集群 的 
其 它 DataNode 发 起 连接 。 


备份 文件 帆 约 (Lease) 机 制 : 另 一 个 改进 是 快速 撤回 写 者 所 持 有 
的 兆 约 。HDFS 仅 支持 单个 写 者 对 文件 的 写 操 作 ，NameNode 通 过 下 放 
站 约 来 控制 对 文件 的 写 操作 。 然 后 在 某 些 情况 下 当 需 要 对 文件 进行 读 
的 时 候 ， 读 操作 可 能 与 对 文件 的 写 操 作 进 行 冲 突 。 在 之 前 ， 后 续 的 操 
作 通 过 向 日 志文 件 添加 等 待 信息 来 触发 文件 的 “ 软 小 约 ” 过 期 ， 从 而 获 
得 该 文件 的 站 约 。 文 件 的 “ 软 小 约 " 相 比 净 约 较 短 ， 默 认 值 为 1 分 钟 ， 该 
契约 是 为 了 应 对 这 种 冲突 的 发 生 。 然 而 ， 这 种 机 制 依赖 于 管道 ， 当 发 
生 故 障 时 重建 管道 的 时 间 过 长 ， 对 系统 性 能 影响 较 大 。 


为 了 克服 这 种 问题 ，Facebook 设 计 了 一 种 轻 量 级 的 API: 
recoverLease， 它 能 够 显 式 地 撤销 文件 的 兢 约 。 当 NameNode 接 收 到 


recoverLeaseia KAY, ES EREINA, Aladt TRAM 
理 。 当 契约 恢复 操作 完成 之 后 ， 请 求 方 可 以 获得 文件 的 契约 。 


读 取 本 地 副本 : HDFS 虽 然 增 强 了 数据 存储 系统 的 可 扩展 性 和 性 
能 ， 然 而 往往 读 来 的 是 写 操作 和 读 操 作 的 延迟 。 因 此 ，Facebook 在 其 
中 加 入 了 地 点 侦 测 机 制 ， 寿 客户 端 发 现 数据 处 于 本 地 节点 中 ， 那 么 它 
将 优先 从 本 地 市 点 读 取 数 据 。 


(5) 系统 新 特性 


HDFS 同 步 操 作 : Hflush/sync 对 于 HBase 和 Scribe 来 说 同样 重要 ， 
该 机 制 首先 将 数据 缓存 在 本 地 ， 然 后 将 数据 写 入 管道 。 在 数据 被 完全 
接收 之 前 ， 该 数据 在 本 地 将 一 直 有 效 ， 用 户 可 以 直接 从 本 地 读 取 到 数 
据 的 信息 。 另 外 ， 该 机 制 允许 后 续 的 操作 不 必 等 待 操作 的 完成 ， 在 他 
们 看 来 Hflush/sync 完 全 是 透明 的 。 


并 发 读者 : 在 Facebook 中 某 种 应 用 程序 需要 对 正在 写 的 文件 执行 
读 操 作 。 此 时 ， 读 者 需要 首先 与 NameNode 进 行 通信 来 获取 文件 的 meta 
言 息 。 由 于 此 时 NameNode 并 没有 文件 的 最 新 块 信息 ， 读 者 需要 与 文 
件 某 一 副本 所 在 DataNode 进 行 通信 来 获取 文件 的 快 信息 ， 然 后 再 对 文 
件 执行 读 操 作 。 


2.HBase 的 实现 


上 面 介绍 了 Facebook 对 Hadoop 的 一 些 修改 和 优化 ， 下 面 介绍 它 在 
实际 使 用 HBase 时 进行 的 修改 。 


(1) 数据 库 ACID 特 性 


一 些 应 用 程序 开发 者 总 是 希望 新 型 数据 库 系 统 能 够 保持 原 有 的 
ACID 特性 ，Facebook 同 样 对 HBase 系 统 进行 了 改进 ， 使 其 尽量 满足 
ACID 特性 。 百 和 匈 ，Facebook 采 用 类 MVCC 的 读 写 一 致 性 控制 策略 

(Read-Write Consistency Control RWCC) 来 为 系统 提供 隔离 性 的 保 
证 ， 并 且 采 用 “ 先 写 日 志 ” 的 方法 来 保证 数据 的 持久 性 。 下 面 将 介绍 
Facebook 是 如 何 对 系统 进行 改进 ， 使 其 满足 原子 性 和 一 致 性 。 


首先 ， 系 统 设计 的 第 一 步 是 要 保证 数据 库 系统 行 级 别 的 原子 性 。 
RWCC 在 大 多 数 情况 下 可 以 提供 有 效 的 保证 。 然 而 ， 当 节点 发 生 故 障 
的 时 候 该 保障 将 可 能 失效 。 例 如 ， 在 最 初 的 时 候 ， 系 统 的 日 志 是 顺序 
存 入 HLog 文 件 中 的 。 如 果 在 执行 日 志 写 操作 期 间 ，RegionServer 发 生 
故障 ， 那 么 将 可 能 只 有 部 分 日 志 被 写 入 。Facebook 重 新 设计 了 HLog， 
命名 为 WALEdit， 它 能 够 保证 写 事 务 要 么 全 部 执行 要 么 多 部 不 执行 。 


HDFS 为 数据 提供 了 副本 ， 因 此 需要 采用 一 定 的 策略 来 保证 系统 
的 一 致 性 。 在 Facebook 中 ， 它 们 使 用 管道 的 机 制 ， 当 有 新 数据 更 新 到 
来 的 时 候 ，NameNode 首 先 为 不 同 的 数据 副本 创建 管道 ， 当 所 有 的 副 
本 更 新 完成 之 后 ， 副 本 需要 向 NameNode 发 送 ACK 确 认 。 在 此 期 间 ， 


HBase 将 会 一 直 等 每 ， 直 到 所 有 的 操作 完成 。 假 如 期 间 有 茶 一 个 副本 
写 操作 失败 ，HBase 将 控制 系统 参考 日 志 进 行 回 滚 操作。 为 外 ， 
Facebook 还 采用 一 定 机 制 保证 数据 不 被 破 坏 ， 在 数据 读 取 时 ，HBase 
首先 检查 数据 的 校 验 和 ， 当 校 验 和 错误 ， 系 统 将 自动 删除 该 份 数据 ， 
然后 检查 其 他 副本 。 


(2) HBase 可 用 性 改进 


由 于 HBase 中 很 多 重要 信息 保存 在 HBase 的 Master 中 ， 而 HBase 
Master 只 有 一 个 ， 当 发 生 故 障 时 将 有 数据 丢失 的 可 能 性 。 为 了 尽量 避 
免 这 种 情况 的 发 生 ，Facebook 转 而 将 数据 存储 在 ZooKeeper 中 ， 因 为 
ZooKeeper 采 用 的 是 一 个 “大 多 数 ” 的 策略 ， 数 据 将 被 存储 在 多 个 节点 当 
中 。 当 某 一 个 节点 发 生 故 障 时 ， 用 户 仍旧 能 从 其 它 节 点 获取 数据 。 


Facebook 指 出 ，HBase 集 群 的 集 机 问题 往往 是 由 节点 的 随机 性 宪 
机 引起 的 ， 并 不 是 由 于 系统 的 日 常 维护 工作 。 因 此 Facebook 通 过 对 系 
统 的 改进 来 尽量 缩短 停机 的 时 间 。 例 如 ， 某 一 节点 在 发 起 俘 机 请 求 之 
后 会 间歇 性 地 发 生 停机 事件 ， 这 十 由 于 较 长 的 数据 压缩 周期 造成 的 。 
此 Facebook 将 压缩 设置 为 可 中 断 性 操作 ， 这 样 能 够 将 停机 时 间 缩 短 
到 秒 的 级 别 。 


另外 一 个 问题 是 软件 的 更 新 。 为 了 应 对 软件 的 更 新 ，HBase 需 要 
将 集群 * 俘 机 ?， 然 后 再 更 狐 之 后 进行 “重新 局 动 ”。 为 了 处 理 这 个 问 
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对 某 一 人 台 机 器 进行 更 新 ， 当 这 一 台 机 器 更 新 完成 之 后 ， 系 统 转 而 对 下 
一 台 进 行 更 新 ， 周 而 复 始 ， 直 到 全 部 系统 更 新 完成 。 


在 HBase 中 ， 当 某 一 个 RegionServer 发 生 故 障 时 ， 处 于 该 机 器 的 
HLog 和 需要 被 重新 分 配 到 集群 其 余 有 效 的 节点 上 。 在 之 前 该 操作 由 
HiMaster 来 完成 ， 但 是 由 于 一 个 节点 上 可 能 保存 了 大 量 的 HLog， 该 操 
作 将 花费 很 长 的 时 间 。 在 Facebook 中 ， 他 们 采用 ZooKeeper 集 群 来 负责 
HLog 的 划分 ， 这 使 得 该 操作 的 时 间 降 低 了 很 多 倍 。 


(3) HBase 性 能 提升 


对 于 HBase 的 写 操作 ，Facebook 通 过 缓存 机 制 将 对 数据 库 的 多 次 
写 减少 到 更 少 次 数 地 写 。 当 数据 到 来 的 时 候 ， 数 据 首 先 被 写 入 提交 日 
志 ， 然 后 并 非 直 接 写 入 数据 库 而 是 站 先 写 入 到 绥 存 系统 MemStore 中 。 
当 绥 存 系统 容量 到 达 病 值 之 后 ， 绥 存 将 数据 写 入 HFile 中 ，HFile 是 不 
变型 HDFS 文 件 (不 被 更 改 ) 。 数 据 的 更 新 采用 的 是 附加 的 方式 ， 即 
继续 写 HFile 文 件 ， 而 并 非 对 HFile 文 件 进行 修改 。 当 需要 读 取 数据 的 
时 候 ，HBase 控 制 系 统 并 行 读 取 HFile 文 件 并 抽取 相关 记录 进行 整合 。 
当 一 定时 间 之 后 ，HBase 对 HFile 进 行 压缩 、 合 并 操作 ， 以 避免 后 续 读 
操作 市 来 的 延迟 。 


从 所 周知 ， 系 统 中 文件 数目 的 多 少 对 系统 的 读 操 作 以 及 网 络 IO 部 
有 很 大 的 影响 ， 因 此 在 系统 中 定期 对 文件 进行 压缩 是 非常 有 必要 的 。 
HBase 中 的 压缩 分 为 两 种 类 型 : 次 要 的 和 主要 的 。 次 要 的 压缩 操作 仅 
仅 选 择 部 分 文件 进行 压缩 。 主 要 的 压缩 不 但 对 所 有 的 文件 进行 压缩 ， 
并 且 在 必要 情况 下 对 系统 执行 删除 、 重 写 以 及 请 除 过 期 数据 等 操作 。 
在 这 种 情况 下 ， 次 要 压缩 产生 的 效果 并 不 理想 ， 并 且 生 成 的 HFile 文 件 
可 能 更 大 ， 这 种 文件 不 但 会 对 块 缓存 系统 的 性 能 产生 影响 ， 也 会 对 今 
后 的 进一步 压缩 产生 影响 。 因 此 在 Facebook 中 对 压缩 块 的 大 小 进行 限 
制 ， 从 而 避免 大 数据 块 的 产生 。 此 外 ，Facebook 还 对 HBase 原 有 的 压 
缩 算 法 进行 了 改写 ， 避 免 额外 的 操作 。 


对 于 读 操 作 来 说 ， 某 一 个 Region 中 文件 数目 的 多 少 对 其 有 很 大 的 
影响 ， 在 之 前 的 介绍 中 可 以 知道 ， 通 过 对 数据 的 压缩 可 以 大 大 减少 文 
件 的 数目 。 另 外 Facebook 可 以 通过 某 些 技术 来 加 快 文件 的 搜索 ， 跳 过 
不 必要 的 文件 。 例 如 : Bloom Filter 和 时 间 惟 策略 。Bloon Filter 记 录 的 
是 HFile 文 件 特定 统计 信息 ， 由 于 Region 中 文件 数目 相当 多 ， 因 此 
Facebook P KHE HITER (folding) ， 进 一 步 降 低 Bloom Filter 的 
大 小 。 这 样 讲 Bloom Filter 存 储 到 内 存 之 中 ， 从 而 加 快 文件 的 检索 。 另 
外 通过 对 时 间 戳 的 比 对 ， 同 样 可 以 加 快 文件 的 检索 速度 。 


3. 展 望 


虽然 Facebook 修 改 后 的 Hadoop 和 HBase 存 储 架 构 很 大 程度 上 满足 
了 其 对 存储 架构 的 设计 需求 ， 但 展望 未 来 ，Facebookji 丰 提出 了 未 来 这 
个 存储 染 构 完善 的 几 个 方面 : 


1) 对 Hadoop 和 HBase 应 用 迭代 的 优化 ; 


2) 对 HBase 二 级 索引 和 视图 摘要 的 支持 ， 以 及 对 这 些 特 性 的 异步 


3) HBase 内 存 管理 和 扩充 ， 可 通过 slab 或 者 JNT 进 行内 存 管 理 ， 通 
过 flash memory 来 扩展 HBase cache; 


A) 解决 HBase 多 数据 中 心 replication 和 冲突 问题 。 


19.6 本章 小 结 


本 间 按 照 系统 的 从 简 到 难 、 应 用 的 从 浅 到 深 ,介绍 了 Hadoop 在 企 
业 中 的 应 用 和 实践 ， 涵 盖 了 经 封装 后 直接 使 用 Hadoop 模 块 、 修 改 完善 
Hadoop 设 计 等 内 容 ， 特 别 是 大 篇 幅 地 介绍 了 Facebook 使 用 
Hadoop+HBase 的 一 些 细节 “。 和 希望 大 家 能 认真 学 习 ， 掌 握 如 何 使 
Hadoop 在 大 型 应 用 中 扮演 重要 的 角色 ， 学 会 基于 Hadoop 搭 建 大 型 应 用 
框架 ， 并 能 在 系统 开发 应 用 中 根据 实际 需求 修改 完善 Hadoop。 


另外 ， 本 章 关 于 Hadoop 在 Yahoo! 的 应 用 内 容 是 根据 Hadoop 云 计 算 大 会 上 Yahoo! H 
究 人 员 的 报告 整理 而 成 的 ，Pig Al Hive 应 用 相关 内 容 来 自 Yahoo! MRA AM Me, KK 


如 果 想 要 了 解 Hadoop 在 Yahoo! 应 用 的 更 多 细节 和 进展 ， 请 天 注 
Yahoo! Hadoop 团 队 的 博客 (developer.yahoo.com/blogs/hadoop) 。 


Hadoop 在 eBay 的 应 用 内 容 是 根据 eBay 研究 人 员 的 技术 博客 器 整理 
而 成 的 ， 其 中 参考 了 eBay 分 析 平 台 开 发 部 Anil Madan 介 绍 的 Hadoop 在 
eBay 的 使 用 情况 ， 大 家 想 要 了 解 Hadoop 在 eBay 应 用 的 更 多 信息 ， 可 以 
关注 eBay 研究 人 员 的 技术 博客 (www.ebaytechblog.com) 。 


百度 和 即刻 搜索 使 用 Hadoop 平 台 的 情况 则 是 根据 近 几 届 Hadoop 中 
云 计 算 大 会 上 对 应 企业 研究 人 员 的 报告 整理 而 成 ， 大 家 如 果 想 了 解 
更 详细 的 信息 或 Hadoop 中 国 云 计 算 大 会 的 相关 信息 可 登录 Hadoop in 


China 网 站 : http: //www.hadooper.cn ° 


Facebook 的 企业 案例 是 根据 Facebook 公 开发 表 的 论文 BI 整理 而 
来 o 
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流 ， 它 的 学 习 资 料 也 日 趋 丰 富 起 来 。 但 是 MapReduce 运 行 所 需 的 并 行 
环境 却 成 为 了 入 门 者 学 习 的 最 大 障碍 ， 主 要 原因 是 并 行 环 境 的 硬件 要 
求 融 ， 配 置 复 淋 ， 同 时 现 有 的 学 习 资 料 中 鲜 有 编程 实战 方面 的 指导 ， 
更 多 专注 在 MapReduce 的 理论 知识 上 。 综 合 这 些 情况 ， 我 们 开发 了 云 
计算 在 线 检测 平台 (http: //cloudcomputing.ruc.edu.cn/) ， 为 大 家 提供 
理论 知识 测试 和 利用 理论 知识 进行 实战 的 机 会 。 该 平台 提供 运行 程序 
的 并 行 环 境 ， 避 免 入 1 者 将 精力 都 化 费 在 环境 配置 上 ， 帮 助 他 们 配合 
本 书 进行 学 习 和 实践 。 


云 计算 在 线 检测 平台 是 一 个 MapReduce 程 序 检 测 平台 。 此 平台 基 
于 Hadoop 集 群 提供 了 MapReduce 并 行程 序 运行 的 分 布 式 环境 ， 则 在 为 
MapReduce 的 入 门 者 提供 位 单 具体 的 编程 练习 ， 使 其 初步 掌握 
MapReduce 框 架 的 编程 思想 ， 并 拥有 使 用 MapReduce 并 行 化 解决 实际 
问题 的 能 力 。 用 户 可 以 根据 乎 台 提供 的 问题 育 景 ， 开 发 目 己 的 并 行程 
序 并 提交 运行 。 平 台 会 根据 运行 结果 反馈 给 用 户 一 定 的 信息 ， 以 便 进 
行 修 改 或 进一步 优化 。 用 户 也 可 以 在 平台 上 进行 分 布 式 系统 理论 知识 
的 测试 ， 以 提高 理论 水 平 。 同 时 ， 此 平台 结合 分 布 式 系统 架构 
Hadoop、MySQL 技 术 和 Tomcat 技 术 ， 提 供 了 在 线 的 分 布 式 并 行 运行 环 


境 ， 供 用 户 运行 目 己 所 提交 的 并 行程 序 。 根 据 实际 的 使 用 结果 和 平台 
功能 完整 性 的 需求 ， 平 台 的 结构 已 经 从 原来 的 前 台 用 户 接口 和 后 台 程 
序 运行 两 个 主体 结构 发 展 成 前 台 用 户 接 口 、 后 人 台 运 行程 序 和 平台 程序 
过 滤 模 块 三 大 部 分 。 前 台 用 户 接口 负责 同 用 户 的 交互 ， 包 括 保存 用 户 
提交 的 代码 、 返 回程 序 的 检测 结果 等 ， 后 台 运 行程 序 负 责 前 台 收 集 的 
用 户 代码 并 检测 结果 ， 同 时 将 检测 的 结果 交 给 前 合并 维护 网 站 用 户 的 
信息 ， 提 供 整 个 网 站 的 网 络 服务 ;代码 过 沽 模块 主要 实现 了 雷同 代码 
的 过 滤 和 非 MapReduce 合 理 框架 程序 的 过 滤 。 


云 计算 在 线 检测 平台 兼顾 实战 和 理论 ， 能 让 用 户 在 进行 理论 测试 
的 过 程 中 掌握 开源 分 布 式 系统 架构 Hadoop 的 相关 知识 和 MapReduce 的 
理论 知识 ， 能 让 用 户 在 编程 提交 和 修改 再 提交 的 过 程 中 切身 体验 到 如 
何 利用 分 布 式 系统 Hadoop、MapReduce 编 程 ， 以 及 如 何 用 MapReduce 
并 行程 序 来 解决 实际 问题 。 总 体 来 说 ， 此 平台 能 够 提高 用 户 的 理论 水 
平和 实战 能 力 ， 是 MapReduce 入 门 者 不 错 的 入 门 指导 。 


A.2 结构 和 功能 


正如 前 一 市 中 所 介绍 的 ， 云 计算 在 线 检测 平台 已 发 展 成 由 三 大 部 
分 组 成 ， 分 别 是 前 台 用 户 接口 、 后 人 台 程 序 运 行 及 平台 程序 过 滤 模 块 ， 


下 面 分 别 对 它们 进行 介绍 。 


A.2.1 前 人 台 用 户 接 口 的 结构 和 功能 


前 台 用 户 接口 的 功能 结构 如 图 A-1 所 示 。 它 主要 包括 四 部 分 内 
容 : 用 户 完全 服务 、 实 例 编程 练习 、 分 布 式 系统 理论 知识 测试 、 帮 助 
功能 ( 指 网 站 的 使 用 帮助 、Hadoop 介 绍 文档 ， 以 及 网 站 的 中 文 页 
面 ) 。 下 面 分 别 详细 介绍 这 四 个 功能 块 。 


用 户 完全 服务 主要 包括 注册 、 登 录 和 更 狐 信 息 等 。 注 册 是 指 用 户 
在 Register 页 面 完 成 新 用 户 的 注册 ， 云 计算 在 线 检 测 平 台 只 对 注册 用 户 
提供 代码 检测 服务 。 在 注册 页 面 需 要 填写 用 户 名 、 注 册 码 〈 选 填 ) 、 
密码 、 单 位 、 邮 箱 等 信息 ， 注 册 成 功 之 后 用 户 束 可 以 使 用 注册 的 用 户 
名 和 密码 登录 了 ， 同 时 邮箱 会 收 到 一 封 注册 邮件 ， 以 防止 用 户 走 记 用 
户 名 和 密码 以 致 无 法 登录 。 在 注册 时 如 果 发 生 用 户 名 已 注册 、 密 码 重 
复 错 误 、 验 证 码 输入 错误 等 ， 将 会 导致 注册 失败 。 注 册 成 功 后 可 以 在 
首页 的 右上 角 直 接 使 用 用 户 名 和 密码 进行 登录 ， 也 可 以 在 login 页 面 完 


成 登录 操作 。 登 录 成 功 的 用 户 可 以 选择 login out。 更 改 个 人 信息 是 指 
更 改 个 人 密码 等 信息 ， 如 果 用 户 期 望 做 出 更 改 ， 可 以 在 update your 
info 页 面 完 成 。 
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A-1 ”前台 接口 的 结构 图 


MapReduce 实 例 编程 练习 主要 包括 题目 浏览 、 提 交管 案 、 查 看 提 
交 记 录 、 查 看 提交 源码 、 查 看 检测 结果 。 在 云 计算 在 线 检 测 平 台 上 ， 
开发 小 组 设计 了 很 多 基于 MapReduce 并 行 框架 能 够 解决 的 实际 问题 。 
用 户 可 以 在 problem 页 面 详 细 浏 览 各 个 问题 的 背景 ， 以 及 输入 输出 要 求 
和 注意 事项 。 然 后 利用 自己 的 MapReduce 理 论 知 识 ， 针 对 具体 实例 问 
题 来 编写 自己 的 实例 解决 代码 ， 并 且 在 submit solution 页 面 提 交代 码 。 
网 站 会 运行 用 户 提 交 的 代码 ， 然 后 在 网 站 上 反馈 相应 的 结果 。 用 户 可 
以 在 My submission 页 面 中 查看 目 己 的 提交 记录 ， 也 可 以 单 击 每 一 条 记 
录 中 的 source 连 接 查 看 目 己 提交 的 代码 ， 同 时 还 可 以 单 击 result 栏 下 面 
的 连接 查看 检测 结 


分 布 式 系统 理论 知识 测试 主要 指 用 户 单 击 首页 的 theory test 之 后 会 
出 现 一 份 限 时 半 小 时 的 试卷 ， 共 20 道 选择 题 。 这 些 选择 题 都 是 随机 从 
平台 中 题库 里 选 出 来 的 ， 题 目 是 关于 分 布 式 系统 的 理论 知识 ， 主 要 集 
中 在 Hadoop 及 其 于 项 目 上 。 用 户 答题 完毕 单 击 提交 按 钮 或 在 页 面 上 停 
留 的 时 间 超 过 半 小 时 ， 所 有 管 案 束 会 提交 。 平 台 通 过 比 对 之 后 会 将 每 
道 题目 的 正确 答案 及 用 户 的 回答 一 起 返回 ， 并 计算 出 此 次 测试 的 分 


数 。 


帮助 功能 主要 指 网 站 的 使 用 帮助 、 网 站 对 应 的 中 文 页面 ， 以 及 
Hadoop 的 介绍 文档 和 用 于 讨论 的 BBS 版 块 。 网 站 的 使 用 帮助 在 首页 的 
FAQS 页 面 下 ， 主 要 是 关于 网 站 在 实际 使 用 中 要 注意 的 事项 。 网 站 对 应 
的 中 文 页 面 可 以 点 击 Chinese 链 接 进 入 。 中 文 页 面 也 提供 了 与 英文 页 面 
完全 相同 的 服务 。Hadoop 快 速 指 南 网 站 上 的 Hadoop Quick Start 链 接 和 
它 所 提供 的 在 线 文档 ， 主 要 为 用 户 提供 一 些 Hadoop 分 布 式 系统 的 初步 
认识 和 安装 说 明 。BBS 论 坛 允 许 用 户 在 平台 上 交流 MapReduce 的 学 习 
经 验 ， 以 及 对 平台 上 题目 ， 同 时 还 可 以 留 下 目 己 关于 平台 使 用 的 疑 
[A] o 


A.2.2 后台 程序 运行 的 结构 和 功能 


后 台 程 序 运行 的 功能 结构 如 图 A-2 所 示 。 后 台中 的 主要 模块 也 是 
四 部 分 : Tomcat 服 务 右 、MySQL 数 据 库 、Hadoop 分 布 式 环境 、Shell 文 
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= 
ar 
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Tomcat 服 务 器 : 担当 网 站 的 Web 服 务 右 角色 ， 你 证 用 户 能 够 从 网 
络 上 访问 到 平台 ， 并 将 开发 小 组 基于 JSP 技 术 开 发 的 网 页 呈现 在 用 户 的 
电脑 上 。 


MySQL 数 据 库 : 其 中 主要 是 网 站 的 信息 ， 包 括 用 户 个 人 信息 、 用 
户 提交 记录 、 网 站 题库 等 。 基 于 JSP 技 术 开 发 的 网 页 通过 调用 MySQL 
的 接口 ， 获 取 用 户 请 求 的 信息 ， 并 将 其 呈现 在 网 页 上 或 将 网 页 上 提交 
的 信息 保存 到 数据 库 中 。 


Tomcat | RELA AY Webb AlN 2h 


MySQL |. 绯 护 区 站 信息 存 名 


| | 提 伟 并行 程序 还 行 环境 


A-2 后 台 结 构 


Hadoop 分 布 式 环境 ， 古 整个 后 台 的 核心 所 在 ， 因 为 它 是 云 计 算 在 
线 检 测 平 台 提 供 特 色 服 务 的 核心 。 开 发 小 组 站 先 在 多 台 计 算 机 上 安 效 
好 Hadoop 分 布 式 系统 ， 形 成 一 个 分 布 式 环境 ， 然 后 再 在 集群 上 配置 网 
站 提供 服务 ， 这 融 可 以 保证 为 用 户 提交 的 代码 提供 并 行程 序 运 行 所 需 


mey 
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， 给 出 结果 。 
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Shell CH: 在 检测 平台 的 系统 中 扮演 着 人 体 中 血液 的 角色 。 它 前 
先 将 网 页 保存 下 来 的 用 户 代码 进行 预 处 理 ， 比 如 检测 是 否 是 正确 的 
Java 程 序 等 ， 然 后 再 对 预 处 理 之 后 的 结果 进行 预 编 译 ， 成 功 之 后 再 将 
代码 提交 到 Hadoop 上 ， 接 着 再 收集 Hadoop 的 运行 结果 ， 然 后 与 标准 结 
果 进 行 比 对 ， 最 后 将 比 对 的 结果 分 类 返回 给 前 台 网 页 ， 呈 现在 用 户 面 
前 。 综 合 来 说 ，Shell 文 档 将 前 人 台 功 能 块 和 后 台 功 能 块 串 联 了 起 来 ， 以 
便 为 用 户 提供 连贯 的 服务 。 


A.2.3 平台 程序 过 小 功能 


这 部 分 主要 实现 了 两 个 与 用 户 程序 直接 相关 的 功能 : 非 
MapReduce 合 理 框 架 程 序 过 滤 和 雷同 代码 程序 过 滤 。 添 加 过 滤 模 块 的 
主要 出 发 点 是 ， 管 理 员 发 现在 平台 的 使 用 过 程 中 ， 部 分 用 户 直 接 提交 
他 人 代码 或 者 经 过 一 些 初 级 的 代码 移动 、 替 换 等 提交 他 人 代码 ， 甚 至 
有 些 用 户 提 交 的 代码 所 有 任务 均 安排 在 一 个 节点 的 Reduce 函 数 中 完成 
任务 ，Map 男 数 的 功能 就 是 直接 输出 获取 的 输入 ， 这 种 程序 看 似 运用 
了 MapReduce 框 架 ， 但 是 并 不 是 合理 的 MapReduce 框 架 程序 ， 因 为 它 
未 能 利用 MapReduce 框 架 来 并 行 处 理 问题 ， 甚 至 由 于 Map 函 数 这 个 无 
用 过 程 的 存在 增加 了 处 理 的 负担 。 这 两 种 现象 都 是 不 应 该 出 现 的 ,但 


是 由 于 之 前 平台 是 目 动 运行 ， 只 匹配 结果 是 否 正 确 ， 导 致 这 些 不 合理 
人 
A 


代码 会 被 接受 。 为 了 避免 这 些 现 象 ， 管 理 员 升级 了 平台 ， 增 加 了 代码 
过 滤 模 块 。 下 面 简要 介绍 这 两 个 功能 实现 细 市 : 


(1) 非 MapReduce 合 理 框架 程序 过 滤 功 能 


MapReduce 框 架 通 过 Map 和 Reduce 两 个 函数 ， 实 现 了 集群 对 海量 
数据 的 并 行 处 理 。 其 中 Map 函 数 起 到 数据 预 处 理 和 分 泊 的 功能 
meric a ETRE 
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使 用 中 ， 部 分 用 户 只 是 简单 地 将 所 有 数据 的 处 理 任 务 都 放 在 一 个 节点 
的 Reduce 函 数 中 ，Map 男 数 仅 输出 接受 的 输入 。 这 种 处 理 方法 古 不 合 
理 的 。 


通过 观察 和 分 析 这 些 程序 ， 管 理 员 发 现 ， 用 户 要 想 将 所 有 的 任务 
放 在 一 台 节 点 的 Reduce 函 数 中 处 理 ， 那 么 他 就 需要 将 Map 输 出 的 key 选 
为 一 个 固定 值 。 所 以 从 这 一 点 出 发 ， 在 平台 的 非 MapReduce 合 理 框 架 
程序 过 滤 中 ， 管 理 员 首先 定位 Map 画 数 的 输出 位 置 ， 再 定位 输出 位 置 
中 key 的 位 置 ， 如 果 程 序 辨别 此 key 值 为 某 个 固定 值 ， 那 么 说 明 用 户 并 
未 将 输入 数据 分 流 ， 是 不 合理 的 MapReduce 框 架 程序 ， 从 而 不 执行 此 
程序 ， 输 出 为 MapReduce Error ° 


(2) 雷同 代码 的 过 滤 


PATE PF A LER Se OL, eae TET RL ° MAHA 
雷同 代码 出 现 之 后 ， 管 理 员 就 开始 研读 对 应 的 雷同 代码 检测 文献 ， 学 
习 相 关 方 法 ， 并 将 之 运用 到 平台 中 。 现 在 平台 的 雷同 代码 过 滤 主 要 采 
FULL Bare: 
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计算 每 个 字符 串 的 Hash 函 数值 ; 
按照 固定 窗口 大 小 ， 溺 动 获 取 固 定 大 小 的 连续 Hash 函 数值 ; 


获取 每 个 连续 函数 值 串 中 的 最 小 函数 值 ， 结 合 其 位 置 参数 作为 代 
码 的 指纹 ， 某 一 位 置 上 的 函数 值 只 能 出 现 一 次 ; 


计算 此 代码 指纹 与 代码 指纹 库 中 每 个 指纹 的 相似 度 ， 如 采 超 过 某 
一 国 值 则 判 为 雷同 代码 ; 


界面 显示 雷同 代码 ， 并 目 动 发 送 邮 件 给 用 户 和 系统 管理 员 。 


由 于 代码 抄 委 和 代码 学 习 之 间 的 界限 并 不 明确 ， 可 能 会 将 代码 错 
判 为 雷同 代码 ， 雷 同 代 码 的 过 滤 在 平台 中 发 挥 了 巨大 作用 ， 模 块 刚 加 
入 之 处 整 判 出 了 两 例 雷 同 代码 。 


代码 过 滤 模 块 的 加 入 ， 并 不 是 为 了 增加 用 户 使 用 的 难度 ， 而 是 为 
了 规范 用 户 的 代码 ， 优 化 平台 的 使 用 。 系 统管 理 员 会 根据 实际 的 使 用 
情况 ， 不 断 更 新 扩展 此 模块 功能 ， 使 平台 功能 更 加 完善 ， 用 户 使 用 更 
加 方便 。 


A.3 检测 流程 


经 过 前 面 两 节 的 介绍 ， 大 家 对 整个 平台 已 经 有 一 个 直观 整体 的 认 
识 ， 那 么 这 个 平台 是 如 何 运行 的 呢 ? 它 的 运行 流程 是 什么 ? 本 市 将 详 


细 介 绍 云 计 算 在 线 检测 平台 检测 用 户 代 码 的 流程 。 


总 体 来 说 ， 平 台 对 用 户 代码 的 检测 流程 主要 包括 代码 保存 、 代 码 
预 处 理 、 代 码 运 行 和 结果 分 析 返 回 、 绪 有 果 显 示 五 个 阶段 ， 下 面 将 分 别 


介绍 这 五 个 阶段 : 


代码 保存 阶段 : 用 户 在 网 页 上 儿 贴 目 己 的 代码 ， 点 击 submit 提 交 
之 后 ， 网 站 会 把 用 户 的 代码 保存 在 服务 右上 一 个 唯一 的 文件 中 ， 并 在 
后 台数 据 库 中 保存 这 一 次 提交 的 信息 和 代码 路 径 。 


代码 预 处 理 阶 段 : 用 户 在 提 区 代码 之 后 ， 网 站 在 进行 代码 保存 的 
同时 还 会 调用 Shell 文 档 来 进行 代码 的 预 处 理 。Shell 文 档 被 调用 运行 之 
后 束 会 开始 用 户 代 码 的 预 处 理 。 首 先 Shell 文 档 会 按照 调用 的 路 径 参 数 
从 本 地 找到 用 户 代码 ， 然 后 检测 用 户 代 码 ， 比 如 程序 是 否 是 可 运行 的 
Java 人 代码、 是否 从 合 MapReduce 框 架 要 求 等 。 如 采 预 处 理 成 功 就 会 将 
代码 提交 给 Hadoop 分 布 式 环境 运行 ， 如 有 果 预 处 理 失 败 束 会 直接 返回 并 
将 错误 原因 呈现 到 网 页 界面 上 。 


代码 运行 阶段 : 代码 预 处 理 成 功 之 后 会 被 提交 到 Hadoop 分 布 式 环 
境 上 ，Hadoop 调 用 事先 已 经 保存 在 HDFS (Hadoop 分 布 式 文件 系统 ) 
上 的 输入 数据 来 运行 代码 。 在 平台 的 处 理 过 程 中 ， 代 码 在 Hadoop 上 的 
运行 和 在 线 下 自己 提交 代码 到 Hadoop 上 的 运行 相同 。 代 码 运 行 结束 之 
后 ，Shell 文 档 会 将 结果 信息 重 定 向 到 代码 文件 中 同样 唯一 的 结果 信息 
文件 中 ， 以 交 给 下 一 步 处 理 。 


结果 分 析 返 回 阶段 : 结果 分 析 返 回 阶段 主要 是 分 析 Hadoop 运 行 的 
结果 信息 ， 对 结 采 分 类 ， 生 成 结果 文件 ， 然 后 将 相关 的 信息 写 入 数据 
库 ， 供 平台 显示 代码 运行 结果 时 调用 。Shell 在 分 析 结 果 时 ， 上 人 移 碍 看 
有 没有 输出 结 有 末 ， 如 果 有 输出 结果 就 和 标准 输出 进行 对 比 ， 正 确 殴 返 
回 结 果 Accepted， 错 误 就 返回 结果 Wrong Answer ° WRA HR, H 
将 输出 信息 同一 些 结果 关 键 词 进行 匹配 ， 然 后 返回 匹配 成 功 的 那 一 类 


错误 信息 。 


结果 显示 : 用 户 在 My Submission 界 面 点 击 result 一 栏 的 结果 链接 之 
后 ， 页 面 会 调用 数据 库 接口 ， 搜 索 此 次 提交 记录 在 数据 库 中 对 应 的 记 
录 “。 找 到 之 后 ， 页 面 直接 获取 结果 信息 文件 的 路 径 ， 然 后 将 其 内 容 显 
示 在 页 面 上 ， 如 果 代码 有 误 ， 用 户 承 可 以 知道 代码 的 错误 所 在 ， 用 户 
进行 调整 之 后 重新 提交 。 


结合 上 面 的 介绍 ， 网 站 人 处 理 的 流程 图 如 图 A-3 所 示 。 


处 理 层 


A-3 网 站 处 理 流程 图 


A.A 使 用 介绍 


前 面 介绍 了 云 计算 在 线 检测 平台 的 理论 内 容 ， 本 节 将 从 功能 使 
用 、 题 目 介绍 、 返 回 结果 说 明 、 使 用 注意 事项 四 个 方面 详细 介绍 平台 
的 使 用 方法 。 


A.4.1 功能 使 用 


本 附录 第 2 市 介绍 了 平台 中 前 合用 户 接 口 和 后 台 程 序 运 行 的 结 末 和 
功能 块 。 而 与 用 户 直 接 相 关 的 就 是 前 台 功 能 的 使 用 。 下 面 用 三 个 使 用 
实例 来 说 明 如 何 使 用 前 台 功 能 。 


1. 如 何 注册 用 户 ， 如 何 修改 信息 ? 
注册 功能 的 使 用 流程 如 下 : 
1) 在 首页 点 击 Register 链 接 ， 进 入 注册 界面 ; 


2) 填写 个 人 信息 ， 包 括 用 户 名 、 注 册 码 〈 选 填 ) 、 密 码 、 邮 箱 、 
单位 、 国 家 、 验 证 码 等 ; 


3) 根据 提示 进行 调整 ， 比 如 如 果 提 示 用 户 名 已 存在 ， 就 需要 换 一 
个 用 户 名 ， 如 果 提 示 密 码 重 复 错 误 ， 就 需要 重新 输入 密码 等 。 


4) 注册 成 功 ， 如 果 注 册 完 之 后 可 以 进入 注册 成 功 界面 ， 就 表示 注 
玉成 功 了 ， 界 面 上 显示 的 是 目 己 除 密码 外 的 所 有 注册 信息 ， 同 时 用 户 
所 注册 的 邮箱 会 收 到 一 封包 含 用 尸 名 和 密码 的 注册 邮件 ， 以 防止 态 记 
用 户 名 或 密码 。 


使 用 修改 信息 功能 的 流程 如 下 : 


1) 登录 之 后 在 首页 点 击 Update your info 链 接 ， 进 入 信息 修改 页 


2) 填写 要 修改 的 个 人 信息 ; 
3) 点 击 提交 之 后 就 会 进入 修改 成 功 界面 ， 界 面 显 示 修 改 的 信息 。 
2. 如 何 提交 目 己 的 代码 并 查看 结 采 ? 


1) 登录 之 后 点 击 具体 题目 下 的 submit 按 钮 ， 进 入 代码 提交 页 面 ， 
或 者 点 击 submit solution 链 接 直接 进入 提交 页 面 ， 再 或 者 在 首页 的 
problem 一 栏 下 输入 problem ID 直 接 进 入 problem， 然 后 点 击 提交 进入 代 
码 提交 页 面 ; 


2) 在 代码 提交 页 面 的 空白 处 粘贴 自己 的 代码 ， 点 击 提交 ; 


3) 提交 之 后 页 面 自动 跳 入 仅 包 含 此 次 提交 信息 的 页 面 ， 在 这 个 页 
面 中 用 户 能 够 得 看 目 己 提交 的 代码 ， 同 时 页 面 还 能 够 在 代码 运行 结 


之 后 目 动 更 新 result 一 栏 的 状态 ， 并 显示 运行 结果 (此 处 采用 了 AJAX 
技术 ， 由 于 存在 技术 兼容 问题 ， 所 以 内 有 firefox 文 持 ) ， 更 新 之 后 用 
户 可 以 点 击 查 看 运行 结果 ; 


4) 用 户 想 查看 结果 和 目 己 的 代码 ， 也 可 以 点 击 My Submission 链 
接 ， 进 入 上 自己 的 提交 记录 页 面 ， 点 击 特 定 记 录 后 的 source 束 可 以 查看 
是 交 的 代码 了 ， 点 击 result 一 栏 的 结果 可 以 查看 具体 的 结果 信息 。 


3. 如 何 进 行 理论 测试 ? 
1) 登录 后 点 击 Theory test 进 入 理论 测试 界面 ; 


2) 根据 具体 的 题目 选择 正确 管 案 ， 然 后 提交 (理论 测试 每 份 试卷 
限时 30 分 钟 ， 如 果 在 页 面 上 停留 的 时 间 超过 30 分 钟 ， 平 台 也 会 自己 提 
交 页 面 现 有 答案 ) ; 


3) 提交 之 后 页 面目 动 跳 入 结果 页 面 ， 显 示 每 到 题目 的 回答 是 否 正 
确 。 


A.4.2 返回 结果 介绍 
在 平台 上 提交 代码 之 后 在 提交 历史 中 的 result 一 栏 就 可 以 看 到 结 


果 。 那 么 都 有 什么 结果 ? 都 代表 什么 意思 ? 针对 具体 的 错误 用 户 应 该 
如 何 应 对 ? 下 面 将 进行 详细 介绍 。 


Accepted: 表示 用 户 提交 的 代码 已 经 被 接受 ， 而 用 户 代码 被 接受 
的 前 提 十 代码 能 够 正确 运行 ， 并 且 在 以 平台 的 测试 数据 作为 输入 数据 
执行 的 输出 结果 和 平台 标准 的 输出 结果 完全 相同 。 但 是 需要 提醒 的 
征 ， 由 于 MapReduce 编 程 框架 的 原因 ， 平 台 上 的 这 些 题目 完全 可 以 在 
MapReduce 结 构 中 的 Map 或 Reduce 阶 段 独立 完成 ， 但 是 这 种 做 法 没有 
完全 发 挥 MapReduce 并 行 运行 的 效率 ， 不 是 最 优 的 办 法 。 所 以 如 采用 
户 的 代码 被 Accepted 了 ， 用 户 还 需要 审视 目 己 的 代码 ， 检 查 它 是 人 否 最 
大 程度 利用 了 并 行 运 行 来 所 高 效率 。 


Compile Error: 表示 用 户 代 码 编译 错误 ， 出 现 这 种 情况 说 明 在 用 
户 的 代码 中 存在 语法 问题 ， 在 进行 普通 的 Java 程 序 编译 时 出 钳 了 “。 用 
户 可 以 点 击 result 栏 的 错误 结果 链接 去 但 看 具体 的 语法 错误 位 置 ， 并 进 
行 修改 。 用 户 也 可 以 在 本 地 进行 普通 的 Java 编 译 ， 待 通过 之 后 再 提交 
到 平台 上 ° 


MapReduce Error: 表示 代码 在 Hadoop 上 运行 时 出 现 错误 并 没有 输 
出 结果 。 这 种 情况 出 现 的 可 能 性 比较 多 ， 主 要 包括 : 常见 的 Java 程 序 
逻辑 错误 、MapReduce 逻 辑 错误 等 。Java 程 序 逻 辑 错误 又 主要 包括 数 
组 越界 、 未 初始 化 等 ，MapReduce 逻 辑 错误 则 主要 包括 输入 输出 类 型 
不 匹配 等 。 在 遇 到 MapReduce Error 时 相对 比较 麻烦 ， 需 要 用 户 仔 细 核 
对 目 己 的 代码 ， 找 出 逻辑 错误 的 地 方 进行 修改 ， 然 后 再 尝试 提交 © 


Wrong Answer: 表示 代码 能 够 在 Hadoop 上 正常 运行 并 有 输出 结 
果 ， 只 是 用 户 的 输出 结果 和 标准 结果 并 不 匹配 。 出 现 这 种 情况 时 ， 用 
户 首 移 要 检查 目 己 代 码 的 输出 格式 是 否 正确 ， 比 如 顺序 是 否 和 实例 输 
出 相同 。 然 后 再 检查 结 采 是 否 完整 ， 是 不 是 漏 挥 了 某 些 结果 等 ， 最 后 


仿 查 是 不 是 程序 逻辑 错误 导致 的 结果 错误 。 


Runtime Error: 表示 代码 执行 的 时 间 太 长 ， 也 就 是 说 用 户 代 码 在 
Hadoop 上 执行 的 时 间 超 出 了 正 第 的 执行 时 间 。 出 现 这 种 情况 的 原因 主 
要 是 用 户 程 序 存在 死 循 环 或 平台 同时 提交 的 程序 太 多 ， 使 运行 效率 降 
低 了 。 用 户 只 需要 查看 是 否 存 在 死 循 环 代码 并 在 平台 空 内 的 时 间 提 交 
LALLA T ° 


Memory Exceed: KRIE AITA elm it, AARRE R 
使 用 了 内 存 或 无 限 申 请 内 存 的 代码 〈 这 主要 针对 主 函 数 中 的 代码 ， 如 
果 在 MapReduce 中 出 现 类 似 的 代码 会 返回 MapReduce Error) 。 出 现 这 
种 情况 ， 束 需要 用 户 在 目 己 的 代码 中 仔细 查找 是 否 有 过 多 使 用 内 存 或 
无 限 开 内 存 的 代码 。 


Evil Code: 表示 提交 的 程序 中 存在 恶意 代码 ， 也 避 是 说 用 户 代 码 
中 存在 系统 调用 代码 或 意图 更 改 平 台 服 务 旧 配置 的 代码 等 。 这 束 需 要 
用 户 清除 代码 中 根本 用 不 到 的 代码 和 一 些 恶意 代码 了 。 


Sim Code: 表示 提交 程序 的 指纹 和 网 站 代码 指纹 库 中 的 茶 一 个 指 
纹 相 似 度 超过 了 网 站 定义 的 国 值 ， 也 就 是 说 此 代码 有 抄袭 的 嫌疑 。 发 
生 这 种 错误 之 后 网 站 会 向 用 户 和 网 站 管理 员 自 动 发 送 相 关 邮 件 ， 并 附 
上 用 户 代 码 和 雷同 代码 ， 如 果 判 错 用 户 可 同 管理 员 联系 。 


以 上 介绍 了 平台 运行 用 户 提 区 的 代码 之 后 所 返回 的 各 种 结果 及 其 
出 现 的 原因 和 应 对 策略 。 错 误 的 根本 原因 是 代码 问题 ， 所 以 用 户 过 到 
问题 需要 耐心 审视 目 己 代码 ， 修 改 其 中 不 正确 的 代码 和 逻辑 ， 删 除 无 
用 代码 。 


A.4.3 ”使 用 注意 事项 


这 一 节 主 要 疝 大 家 介绍 平台 使 用 的 一 些 注意 事项 ， 这 部 分 内 容 也 
可 以 参考 平台 FAQs 中 的 内 容 。 


Java 程 序 主 类 的 名 字 必 须 为 MyMapre (否则 编译 错误 ) 。 存 在 这 
个 限制 的 原因 是 需要 统一 所 有 提交 的 代码 ， 然 后 由 Shell 文 档 再 将 其 提 
区 到 Hadoop 上 运行 ， 所 以 不 能 为 每 个 用 户 的 代码 写 专门 的 Shell 文 档 。 


在 配置 MapReduce 程 序 的 输入 输出 时 必须 使 用 下 面 两 个 语句 ( 原 
因 和 前 一 个 注意 事项 相同 ) : 
上 日 API 


FileInputFormat.setInputPaths (conf, new Path (args[0]) ) ; 
FileOutputFormat.setOutputPath (conf, new Path (args[1]) ) ; 


BIAPI 
FileInputFormat.addInputPath (job, new Path (otherArgs[0]) ) ; 
FileOutputFormat.setOutputPath (job, new Path (otherArgs[1]) ) ; 


MapReduce 程 序 必 须 处 于 一 个 Java 源 文件 内 ， 它 不 文 持 引 用 其 他 
文件 的 类 。 也 束 是 说 必须 把 Map、Reduce、Combine 等 类 写 到 一 个 文件 
内 o 


平台 对 同时 运行 的 MapReduce 程 序数 量 有 限制 。 因 为 系统 资源 有 
限 ， 而 Hadoop 平 台 及 MapReduce 程 序 在 处 理 少 量 数据 时 的 表现 并 不 是 
很 好 (即使 运行 少量 数据 ，WordCount 程 序 也 需要 花费 20 多 秒 的 时 
间 ) ， 所 以 需要 用 户 耐心 等 待 提交 程序 的 检测 结果 ， 而 且 不 要 同时 提 
交 多 个 程序 ， 以 人 免 占 用 过 多 的 平台 资源 。 


AS A 


本 附录 主要 介绍 了 云 计 算 在 线 检 测 平 台 。 平 台 以 Hadoop 集 群 作为 
并 行程 序 的 运行 环境 ， 为 MapReduce 的 入 门 者 提供 了 兼顾 实战 和 理论 
的 训练 ， 使 其 初步 掌握 MapReduce 框 架 和 Hadoop 系 统 的 理论 知识 ， 同 
时 具有 使 用 MapReduce 并 行 化 解决 实际 问题 的 能 


在 附录 的 第 2 节 中 介绍 了 平台 的 各 个 组 成 部 分 及 其 功能 。 平 台 经 过 
升级 之 后 主要 包括 前 台 用 户 接口 、 后 台 程 序 运 行 和 代码 过 滤 模 块 。 前 
台 主 要 包括 用 户 完 全 服务 、 实 侈 编程 练习 、 分 布 式 系统 理论 知识 测 
试 、 帮 助 功能 。 前 台 主 要 完成 与 用 户 的 交互 和 用 户 服务 的 功能 。 后 台 
主要 包括 Tomcat 服 务 器 、MySQL 数 据 库 、Hadoop 分 布 式 环境 、Shell 文 
档 ， 它 为 前 台 功 能 提供 支持 。 代 码 过 滤 模 块 主要 包括 非 MapReduce 合 
理 程序 过 滤 和 雷同 代码 过 滤 ， 这 一 模块 规范 了 用 户 的 程序 和 使 用 规 
范 。 接 着 又 介绍 了 用 户 代码 的 检测 流程 ， 主 要 是 用 户 提交 之 后 网 页 保 
存 用 户 代码 、 启 动 Shell 调 用 用 户 提交 代码 进行 代码 预 处 理 、 预 处 理 成 
功 后 代码 会 提交 到 Hadoop 上 运行 ， 然 后 分 析 并 返回 用 户 程 序 执行 的 结 
果 ， 最 后 将 用 户 的 结果 信息 显示 在 前 台 界 面 上 。 最 后 一 节 对 网 站 的 使 
用 进行 了 介绍 ， 主 要 是 一 些 功 能 使 用 的 举例 ， 比 如 注册 更 新 信息 、 提 
交 人 代码、 理论 测 试 等 。 同 时 本 节 还 介绍 了 用 户 代码 运行 之 后 返回 的 各 
个 结果 所 表示 的 意思 、 原 因 和 如 何 应 对 。 


云 计算 在 线 检测 平台 能 够 帮助 用 户 补充 MapReduce 编 程 框架 和 
Hadoop 分 布 式 系统 的 理论 知识 ， 并 且 在 实践 中 掌握 利用 MapReduce 框 
染 解 决 实际 问题 的 能 力 ， 是 MapReduce 入 1 者 不 错 的 选择 。 


附录 B “Hadoop 安 竣 、 运 行 与 使 用 说 明 


Hadoop 安 装 
Hadoop 启 动 


Hadoop 使 用 


在 本 书 中 ， 关 于 Hadoop 的 安装 、 运 行 和 使 用 都 已 有 介绍 ， 但 由 于 
章节 内 容 的 要 求 ， 并 没有 组 织 在 一 起 。 为 了 方便 大 家 直接 学 习 安 装 、 
运行 和 使 用 Hadoop， 从 读者 实际 实践 的 需求 出 发 ， 本 书 第 二 版 附加 本 
附录 ， 将 Hadoop 的 安装 、 运 行 和 使 用 结合 起 来 系统 地 呈现 给 读者 ( 安 
装 采 用 最 小 可 用 配置 ) 。 为 了 统一 ， 本 附 孙 关于 Hadoop 的 安装 和 使 用 
均 基 于 Ubuntu 11.10 Linux 操 作 系统 ，1.0.1 版 本 的 Hadoop 和 1.6 版 本 的 
JDK ° 


B.1 Hadoop% 


(1) 下 载 安装 JDK 


确保 可 以 连接 到 互联 网 ， 从 
http: SS ee 
包 (文件 名 类 似 jdk-***-]inux-i586.bin， 不 建议 安装 1.7 版 本 ， 因 为 
并 不 是 所 有 软件 都 支持 1.7) 到 JDK 安 装 目录 (本 章 假设 jdk 安 装 目 录 均 
H/usr/lib/jvm/jdk) ° 


(2) 手动 安装 JDK 


在 终端 下 进入 JDK 安 装 日 隶 ， 并 输入 命令 


sudo chmod u+x jdk-***-linux-1586.bin 


EAEN DOT Ee, TEA ATS: 


sudo-s./jdk-***-linux-i586.bin 


RAR GWT UAC ° 


(3) 配置 环境 变量 


输入 命令 : 


= 


sudo gedit/etc/profile 


输入 密码 ， 打 开 profile 文 件 。 
在 文件 最 下 面 输入 如 下 内 容 : 


#set Java Environment 

export JAVA_HOME=/usr/1ib/jvm/jdk 

export CLASSPATH=".: $JAVA_HOME/1ib: $CLASSPATH" 
export PATH="$JAVA_HOME/: $PATH" 


一 步 的 意义 是 配置 环境 变量 ， 使 你 的 系统 可 以 找到 JDK。 
(4) 验证 JDK 是 否 安装 成 功 


输入 命令 : 


= 


java-version 


会 出 现 如 下 JDK 的 版 本 信息 : 


java version"1.6.0 22" 
Java (TM) SE Runtime Environment (build 1.6.0 22-b04) 
Java HotSpot (TM) Client VM (build 17.1-b03, mixed mode, sharing) 


如 果 出 现 上 述 JDK 版 本 信息 ， 说 明 当 前 安装 的 JDK 并 未 设置 成 
Ubuntu 系统 默认 的 JDK， 接 下 来 还 需要 手动 将 安装 的 JDK 设 置 成 系统 
默认 的 JDK ° 


(5 ) 手动 设置 3 统 默 认 JDK 
在 终端 依次 输入 命令 


sudo update-alternatives--install/usr/bin/java 
java/usr/1lib/jvm/jdk/bin/java 300 

sudo update-alternatives--install/usr/bin/javac 
javac/usr/1lib/jvm/jdk/bin/javac 300 

sudo update-alternatives--config java 


接 下 来 输入 java-version 束 可 以 看 到 JDK 安 闭 的 版 本 信息 。 
B.1.2 SSH 安装 


在 终端 输入 下 面 的 命令 


ssh-version 


如 果 出 现 类 似 “OpenSSH_5.1p1 Debian-Gubuntu2, OpenSSL 0.9.8g 
19 Oct 2007” 的 字符 串 ， 表 示 SSH 已 安装 。 如 果 没 有 输入 下 面 的 命令 进 
行 安 装 : 


sudo apt-get install ssh 


然后 再 依次 输入 以 下 命令 完成 本 机 的 免 密码 配置 : 


ssh-keygen-t dsa-P''-f~/.ssh/id_dsa 
cat~/.ssh/id_dsa.pub> >~/.ssh/authorized_keys 


B.1.3 Hadoop#3# 


Hadoop 有 三 种 运行 方式 ， 单 节点 方式 、 单 机 伪 分 布 方式 与 集群 广 
式 。 前 两 种 方式 并 不 能 体现 云 计算 的 优势 ， 但 是 便于 程序 的 测试 与 调 
试 。 


在 安 狼 Hadoop 之 前 ， 先 从 Hadoop 官 方 网 站 : 
http://www. apache.org/dyn/closer.cgi/Hadoop/core/ 


下 载 hadoop-1.0.1.targz 并 将 其 解压 ， 本 文 往 下 都 默认 Hadoop 解 压 
在 /home/u/ 目 孙 下 。 


(1) 单 季 点 方式 安装 


安装 单 节 点 的 Hadoop 无 须 配置 ， 在 这 种 方式 下 ，Hadoop 被 认为 是 
一 个 单独 的 Java 进 程 ， 这 种 方式 经 常用 来 调试 。 


(2) 单机 伪 分 布 方式 安装 


伪 分 布 式 的 Hadoop 是 只 有 一 个 示 点 的 集群 ， 在 这 个 集群 中 ， 
节点 既是 master， 也 是 slave; 既是 NameNode 也 是 DataNode; 既是 


JobTracker， 也 是 TaskTracker。 


配置 伪 分 布 的 Hadoop 需 要 修改 以 下 几 个 文件 (具体 修改 内 容 的 含 
义 请 参考 第 二 章 ) 


进入 Hadoop 目 录 下 conf 目 永 ， 在 hadoop-env.sh 中 添加 JAVA 安装 目 


export JAVA_HOME=/usr/1lib/jvm/jdk 

修改 core-site.,xml 内 容 如 下 : 

<?xml version="1.0"?> 

<?xml-stylesheet type="text/xsl"href="configuration.xsl"?> 
<configuration> 

<property> 

<name> fs .default .name < /name > 

<value >hdfs: //localhost: 9000</value> 

</property> 

</configuration> 


修改 hdfs-site.xml 内 容 如 下 : 


<?xml version="1.0"?> 

<?xml-stylesheet type="text/xsl"href="configuration.xsl1"?> 
<configuration> 

<property> 

<name>dfs.replication</name> 

<value >1</value> 

</property> 

</configuration> 

修改 mapred-site.xml 内 容 如 下 : 

<?xml version="1.0"?> 

<?xml-stylesheet type="text/xsl"href="configuration.xsl"?> 
<configuration> 


<property> 

< name > mapred.job.tracker </name > 
<value>localhost: 9001</value> 
</property> 

</configuration> 


上 面 文件 都 配置 结束 之 后 ，Hadoop 的 安装 配置 也 就 完成 了 。 


这 里 以 安 流 三 人 台 主 机 的 小 集群 为 例 为 读者 呈现 Hadoop 的 集群 安 
装 。 三 台 主 机 的 耳 地 址 和 对 应 角色 安排 如 下 表 : 


表 B-1 Hadoop 集群 IP 及 角色 分 配 表 


namonode.iobtracker 


datanode,tasktracker 


datanode,tasktracker 


1) 在 三 台 主 机 上 创建 相同 的 用 户 ， 以 便 Hadoop 启 动 过 程 中 的 通 
言 。 参 考 本 附录 中 JDK 和 SSH 的 安装 ， 在 每 台 主 机 上 安装 JDK 和 SSH， 
并 配置 环境 变量 z 


2) 在 每 台 主机 上 配置 主机 名 和 IP 地 址 。 打 开 每 个 主机 的 /etc/hosts 
文件 ， 输 入 内 容 : 


127.0.0.1 localhost 
10.37.128.2 master 


10.37.128.3 slave 
10.37.128.4 slave2 


需要 注意 的 是 ， 应 删除 此 文件 中 其 他 无 用 信息 ， 防 止 Hadoop 集 群 
启动 时 slave 无 法 找到 master 准 确 的 IP 地 址 进行 通信 ， 最 终 导致 slave 上 
的 进程 虽然 启动 但 无 法 和 master 上 的 进程 进行 通信 。 


接 下 来 配置 每 台 主机 上 的 /etc/hostname 文 件 ， 在 文件 中 输入 对 应 
的 主机 名 。 


3) 配置 master 免 密码 登录 slave， 将 master 的 密 钥 文 件 复制 到 各 个 
slave 主 机 的 .ssh 文 件 即 可 。 在 master 主 机 的 终端 下 输入 命令 : 


scp~/.ssh/authorized_keys slavei1: ~/.ssh/ 
scp~/.ssh/authorized_keys slave2: ~/.ssh/ 


命令 完成 之 后 可 以 使 用 ssh slave1 和 ssh slave2 来 测试 是 否 配置 成 
功 o 


4) 修改 Hadoop 配 置 文件 内 容 。 


在 每 人 台 主 机 上 进入 Hadoop 安 装 目 录 ， 问 conf/hadoop-env.sh 文 件 中 
添加 JDK 安 装 目 录 : 


export JAVA_HOME=/usr/lib/jvm/jdk 


将 conf/core-site.xml 文 件 修改 成 : 


<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl"href="configuration.xs1"?> 
<configuration> 

<property> 

<name>fs.default .name< /name > 
<value>hdfs: //master: 9000</value> 
</property> 

<property> 

< name > hadoop.tmp.dir </name > 
<value >/home/u/tmp < /value > 
</property> 

</configuration> 


将 conf/hdfs-site.xml 文 件 修改 成 : 


<?xml version="1.0"?> 

<?xml-stylesheet type="text/xsl"href="configuration.xsl"?> 
<configuration> 

<property> 

<name>dfs.replication</name> 

<value >2</value> 

</property> 

</configuration> 


将 conf/mapred-site.xml 文 件 修改 成 : 


<?xml version="1.0"?> 

<?xml-stylesheet type="text/xsl"href="configuration.xsl"?> 
<configuration> 

<property> 

<name >mapred.job.tracker </name > 

<value>master: 9001</value> 

</property> 

</configuration> 


将 conf/masters 文 件 修改 成 : 


master 


将 conf/slaves 文 件 修改 成 ( 注 


slavel 
slave2 
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B.2 Hadoop 局 动 


在 第 一 次 启动 Hadoop 时 ， 需 要 格式 化 Hadoop 的 HDFS， 命 令 如 
下 : 


bin/Hadoop namenode-format 


接 下 来 启动 Hadoop， 命 令 如 下 : 


bin/start-all.sh 


启动 之 后 ， 可 以 通过 http: //master: 50070、http: //master: 
50030 这 两 个 页 面 查 看 集群 的 状态 。 需 要 注意 的 是 ， 由 于 启动 之 初 集群 
处 理 安全 模式 ， 所 以 可 能 看 到 活跃 节点 或 者 TaskTracker 进 程 都 为 0° 等 
集群 离开 安全 模式 之 后 ， 就 会 恢复 正常 。 


B.3 Hadoop 使 用 


B.3.1 ”命令 行 管 理 Hadoop 集 群 


在 使 用 Hadoop 时 ， 最 常用 的 承 是 使 用 命令 行 来 管理 HDFS， 可 以 
上 传 下 载 文件 ， 管 理 集群 让 点 ， 查 看 集群 状态 ， 运 行 指定 进程 等 ， 命 
令 的 运行 格式 如 下 : 


bin/hadoop command[genericoptions][commandoptions] 


这 里 以 运行 文件 系统 工具 的 几 个 简单 命令 为 例 进行 说 明 ， 有 关 命 
行 管理 集群 的 详细 内 容 请 参见 本 书 第 九 章 。 


bin/hadoop fs-ls hdfs_path// 查 看 HDFS 目 录 下 的 文件 和 子 目 录 
bin/hadoop fs-mkdir hdfs_path// 在 HDFS 上 创建 文件 夹 
bin/hadoop fs-rmr hdfs_path// 删 除 HDFS 上 的 文件 夹 
bin/hadoop fs-put local file hdfs_path// 将 本 地 文件 copy 到 HDFS 上 
bin/hadoop fs-get hdfs_file local path// 复 制 HDFS 文 件 到 本 地 

bin/hadoop fs-cat hdfs_file// 查 看 HDFS 上 某 文件 的 内 容 


B.3.2 ”运行 MapReduce 杠 涤 程 序 


本 小 节 介绍 如 何 编译 自己 编写 的 MapReduce 框 染 程序 ， 并 在 
Hadoop 上 运行 。 假 设 自 己 编写 的 程序 文件 名 为 MyMapred.java， 并 放 


置 在 Hadoop 安 装 目 录 下 ， 即 /home/u/hadoop-1.0.1。 


1) 首先 在 hadoop 安 装 目 录 下 创建 MyMapred 文 件 夹 ， 然 后 编译 自 
己 的 程序 。 命 令 : 


javac-classpath hadoop-core-1.0.1.jar: lib/commons-cli-1.2.jar-d 
MyMapred MyMapred. java 


2) 将 编译 好 的 程序 打包 成 JAR 文 件 ， 命 令 : 
jar-cvf MyMapred.jar-C MyMapred. 
3) 在 Hadoop 上 运行 JAR 文 件 。 


在 单 节点 方式 的 Hadoop 下 ， 只 需要 在 准备 好 本 地 的 输入 文件 之 后 
(此 处 假设 为 home/winput) ， 在 命令 行 输入 下 面 的 命令 就 可 以 运行 
程序 (output 文 件 夹 应 不 存在 ) : 


bin/hadoop jar MyMapred.jar MyMapred/home/u/input output 


运行 结束 之 后 就 可 以 在 output 路 径 下 查看 程序 的 输出 结果 。 


在 伪 分 布 方式 和 完全 分 布 方式 的 Hadoop 集 群 下 ， 首 先 在 集群 上 创 
建 输入 数据 路 径 〈 此 处 为 input) ， 然 后 将 本 地 的 程序 输入 数据 文件 上 
传 到 HDFS 上 的 输入 路 径 中 ， 这 两 个 步骤 需要 使 用 的 命令 在 “命令 行 管 


理 Hadoop 集 群 ?小 节 已 讲 到 ， 此 处 不 再 资 述 。 准 备 好 输入 路 径 之 后 惑 
使 用 同样 的 命令 运行 JAR 文 件 : 


bin/hadoop jar MyMapred.jar MyMapred input output 


需要 注意 的 是 ， 命 令 中 的 input 和 output 都 是 Hadoop 集 群 上 的 路 
径 ， 而 非 单 节点 下 的 本 地 目录 。 这 里 同样 需要 保证 output 路 人 径 在 HDFS 
上 并 不 存在 。 运 行 结 束 之 后 ， 束 可 以 使 用 前 面 介 绍 的 命令 行 命令 来 得 
看 output 文 件 夹 下 的 输出 文件 名 和 输出 文件 的 内 容 。 


BSC 1E FA DistributedCacheH\]MapReducef#/" 
本 章 内 容 
程序 场景 


详细 代码 


C.1 程序 场景 


问题 定义 ， 过 滤 无 意义 单词 (a、an 和 the 等 ) 之 后 的 文本 词 频 统 
计 。 代 码 的 具体 做 法 是 : 将 事先 定义 的 无 意义 单词 保存 成 文件 ， 保 存 
到 HDFS 上 ， 然 后 在 程序 中 将 这 个 文件 定义 成 作业 的 缓存 文件 。 在 Map 
启动 之 后 先 读 入 缓存 文件 ， 然 后 统计 过 滤 后 单词 的 频数 。 源 代码 的 下 
载 请 到 本 书 代码 下 载 网 址 : 


http: //datasearch.ruc.edu.cn/HadoopInAction/shiyandaima.html ° 


C.2 ”详细 代码 


package cn.edu.ruc.cloudcomputing. book; 

import java.io.BufferedReader; 

import java.io.FileReader; 

import java.io. IOException; 

import java.net.URI; 

import java.util.HashSet; 

import java.util.StringTokenizer; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.filecache.DistributedCache; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce. Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce. Reducer; 

import org.apache.hadoop.mapreduce.1lib.input.FileInputFormat; 

import org.apache.hadoop.mapreduce.1ib.output.FileOutputFormat; 

public class AdvancedwWordCount{ 

public static class TokenizerMapper 

extends Mapper<Object, Text, Text, IntWritable>{ 

private final static IntWritable one=new IntWritable (1) ; 

private Text word=new Text () ; 

private HashSet <String> keyword; 

private Path[]localFiles; 

// 此 函数 在 每 个 Map Task 启 动 之 后 立即 执行 (此 处 因 使 用 新 

//API--org.apache.hadoop.mapreduce .Mapper, 所 以 此 画 数 名 是 setup 而 不 是 

// 旧 API 中 的 configure， 有 疑问 可 查看 API) 

public void setup (Context context 

) throws IOException, InterruptedException{ 

keyWord=new HashSet<String> () ; 

Configuration conf=context.getConfiguration () ; 

localFiles=DistributedCache.getLocalCacheFiles (conf) ; 

// 将 缓存 文件 内 容 读 入 到 当前 Map Task 的 全 局 变量 中 

for (int i=0; i<localFiles.length; i++) { 

String aKeyWord; 

BufferedReader br=new BufferedReader (new FileReader 
(localFiles[i].toString () ) ) ; 

while ( (akKeyWord=br.readLine () ) ! =null) { 

keyWord.add (aKeyWord) ; 

} 


br.close () ; 


} 

} 

// 根 据 缓存 文件 中 缓存 的 无 意义 单词 对 输入 流 进行 过 滤 

public void map (Object key, Text value, Context context 
) throws IOException, InterruptedException{ 
StringTokenizer itr=new StringTokenizer (value.toString () ) ; 
while (itr.hasMoreTokens () ) { 

String aword=itr.nextToken () ; 

if (keyWord.contains (aword) ==true) 

continue; 

word.set (aword) ; 

context.write (word, one) ; 

} 

} 

} 


public static class IntSumReducer 

extends Reducer<Text, IntWritable, Text, Intwritable>{ 
private IntWritable result=new IntWritable () ; 

public void reduce (Text key, Iterable<IntWritable>values, 
Context context 

) throws IOException, InterruptedException{ 

int sum=0; 

for (IntWritable val: values) { 

sumt=val.get () ; 


result.set (sum) ; 
context.write (key, result) ; 


} 
} 


public static void main (String[]args) throws Exception{ 

Configuration conf=new Configuration () ; 

// 将 HDFS 上 的 文件 设置 成 当前 作业 的 缓存 文件 

DistributedCache.addCacheFile (new URI ("hdfs: //localhost: 
9000/user/ubuntu/ 

cachefile/Keyword#Keyword") , conf) ; 

Job job=new Job (conf, "advanced word count") ; 

job.setJarByClass (AdvancedWordCount.class) ; 

job.setMapperClass (TokenizerMapper.class) ; 

job.setCombinerClass (IntSumReducer.class) ; 

job.setReducerClass (IntSumReducer.class) ; 

job.setOutputKeyClass (Text.class) ; 

job.setOutputValueClass (IntWritable.class) ; 

FileInputFormat.addInputPath (job, new Path ("input") ) ; 

FileOutputFormat.setOutputPath (job, new Path ("output") ) ; 

System.exit (job.waitForCompletion (true) ?0: 1) ; 

$ 

} 
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附 永 D ”使 用 ChainMapper 和 ChainReducer 的 
MapReduce 程 序 

本 章 内 容 

程序 场景 


详细 代码 


D1 程序 场景 


问题 定义 ， 过滤 无 意义 单词 (a、an 和 the 等 ) 之 后 的 文本 词 频 统 
计 。 代 码 的 具体 做 法 : 使 用 两 个 Map 和 一 个 Reduce， 第 一 个 Map 使 用 
无 意义 单词 数组 对 输入 流 进 行 过 滤 ， 第 二 个 Map 将 过 滤 后 的 单词 加 上 
出 现 一 次 的 标签 之 后 输出 ， 最 后 一 个 过 程 是 Reduce， 对 单词 出 现 次 数 
进行 合计 ， 并 输出 结果 。 需 要 注意 的 是 ChainMapper 和 ChainReducer 并 
不 支持 新 的 Mapper 和 Reducer API (代码 中 也 有 说 明 ) ， 所 以 这 个 程序 
中 使 用 的 API 都 是 旧 的 API (在 1.0.1 上 运行 通过 ) 。 源 代码 的 下 载 请 到 
本 书 代码 下 载 网 址 : 


http: //datasearch.ruc.edu.cn/HadoopInAction/shiyandaima.html ° 


D.2 ”详细 代码 


package cn.edu.ruc.cloudcomputing. book; 

import java.io. IOException; 

import java.util.HashSet; 

import java.util.Iterator; 

import java.util.StringTokenizer; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Longwritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapred.FileInputFormat; 

import org.apache.hadoop.mapred.FileOutputFormat; 

import org.apache.hadoop.mapred.JobClient; 

import org.apache.hadoop.mapred.JobConf; 

import org.apache.hadoop.mapred.MapReduceBase; 

import org.apache.hadoop.mapred.Mapper; 

import org.apache.hadoop.mapred.OutputCollector; 

import org.apache.hadoop.mapred.Reducer; 

import org.apache.hadoop.mapred.Reporter; 

import org.apache.hadoop.mapred.TextInputFormat; 

import org.apache.hadoop.mapred.TextOutputFormat; 

import org.apache.hadoop.mapred.1ib.ChainMapper; 

import org.apache.hadoop.mapred.1ib.ChainReducer; 

public class ChainWordCount{ 

public static class FilterMapper extends MapReduceBase 
implements 

Mapper <Longwritable, Text, Text, Text>{ 

private final static String[ ]StopwWord= 

{"a", "an", "the", "of", "in", "and", "to", "at". "with", "ast. "fo 
r"}; 

private HashSet <String~>StopWordSet; 

// YA AMapper š O PAR, Map Task 启 动 之 后 立即 执行 (此 处 因 使 用 

// 旧 API- -org.apache.hadoop.mapred.Mapper， 所 以 此 函数 名 是 configure 而 


不 是 


// 新 API 中 的 setup， 使 用 上 日 API 是 因为 ChainMapper 和 ChainReducer 不 支持 新 
Mapper//API ° # 

疑问 可 查看 API) 

public void configure (JobConf job) { 

StopWordSet=new HashSet<String> () ; 

for (int i=0; i<StopWord.length; i++) { 

StopWordSet.add (Stopword[i]) ; 


} 


} 

// 将 输入 流 中 的 无 意义 单词 过 滤 掉 

public void map (LongWritable key, Text value, OutputCollector< 
Text, Text> 

collector, 

Reporter reportter) throws IOException{ 

StringTokenizer itr=new StringTokenizer (value.toString () ) ; 

while (itr.hasMoreTokens () ) { 

String aword=itr.nextToken () ; 

if (StopWordSet.contains (aword) ==true) 

continue; 

collector.collect (new Text (aword) , new Text ("") ) ; 

} 

} 

} 


public static class TokenizerMapper extends MapReduceBase 
implements 

Mapper<Text, Text, Text, IntWritable>{ 

private final static IntWritable one=new IntWritable (1) ; 

public void map (Text key, Text value, OutputCollector<Text, 
Intwritable> 

collector, Reporter reportter) throws IOException{ 

collector.collect (key, one) ; 


} 
} 


public static class IntSumReducer extends MapReduceBase 
implements 

Reducer<Text, IntWritable, Text, IntWritable>{ 

private IntWritable result=new IntWritable () ; 

public void reduce (Text key, Iterator <IntWritable>values, 
OutputCollector 

<Text, IntWritable>collector, Reporter reportter) throws 
IOException{ 

int sum=0; 

while (values.hasNext () ) { 

sum+=values.next () .get () ; 


result.set (sum) ; 
collector.collect (key, result) ; 


} 

} 

public static void main (String[]args) throws Exception{ 
JobConf job=new JobConf (ChainWordCount.class) ; 
job.setJobName ("Chain Map Reduce") ; 

job.setJarByClass (ChainwWordCount.class) ; 
job.setInputFormat (TextInputFormat.class) ; 
job.setOutputFormat (TextOutputFormat.class) ; 

// 将 第 一 个 过 滤 单 词 的 Map 加 入 作业 流 = 


JobConf mapiConf=new JobConf (false) ; 
ChainMapper.addMapper (job, FilterMapper.class, 
LongwWritable.class, 

Text.class, 

Text.class, 

Text.class, 

true, 

mapiConf) ; 

// 将 第 二 个 统计 单词 单 次 出 现 的 Map 加 入 作业 流 

JobConf map2Conf=new JobConf (false) ; 
ChainMapper.addMapper (job, 

TokenizerMapper.class, 

Text.class, 

Text.class, 

Text.class, 

IntwWritable.class, 

false, 

map2Conf) ; 

// 将 合并 单词 单 次 出 现 次 数 的 Reduce 设 置 成 作业 流 唯一 的 Reduce 
JobConf reduceConf=new JobConf (false) ; 
ChainReducer.setReducer (job, 

IntSumReducer.class, 

Text.class, 

Intwritable.class, 

Text.class, 

Intwritable.class, 

false, 

reduceConf) ; 

FileInputFormat.addInputPath (job, new Path ("input") ) ; 
FileOutputFormat.setOutputPath (job, new Path ("output") ) ; 
JobClient.runJob (job) ; 


} 
} 


